２７４ Fast R-CNN

R-CNNの後継モデル構造を簡素化して、高速化されたモデル。物体候補領域をそれぞれCNNに入力そるのではなく、画像全体を入力して特徴マップを獲得することで高速化する。特徴マップ上で物体候補領域に相当する部分を切り出し、識別処理を行う。

Fast R-CNN は、物体検出に用いられている深層学習アーキテクチャである（Girshick et al., 2015）。Fast R-CNN は R-CNN と同様に、selective search (Uijlings et al., 2013) アルゴリズムを使用して、オブジェクトの候補領域を検出して、その候補領域に対して物体認識を行なっている。しかし、両者では、特徴量を抽出する際に利用している畳み込みニューラルネットワーク（CNN）が異なっており、また、特徴抽出と物体認識の順序が異なっている。

R-CNN は浅いニューラルネットワーク（AlexNet）を実装していたのに対して、Fast R-CNN はより深層なニューラルネットワーク（VGG16）を実装した。また、R-CNN ではオブジェクト候補領域を 2,000 箇所を検出して、それぞれの候補領域に対し、CNN で特徴量を抽出していた。これに対して、Fast R-CNN では、最初に一度だけ CNN を使って特徴量を抽出してから、候補領域に該当する部分のデータを切り出して使用している。CNN の実行回数が減ったことで、Fast R-CNN の処理時間は、R-CNN に比べて約 9 倍も速くなった。また、PASCAL VOC 2012 のデータセットを利用した性能評価において、R-CNN では 62% mAP（誤差）であったのに対して、Fast R-CNN は 66% であった。