271 FPN

R-CNNの後継モデル。

Feature Pyramid Networks [1] (FPN) は,前段のボトムアップなCNNの後段に,deepな層とshallowな層をトップダウンに接続した上で,更に各スケール階層同士をスキップ接続でつないで,砂時計型Encoder-Decoderを構成するの特徴集約のCNNバックボーンを拡張する構造である.FAIRの物体検出が得意な有名チームから提案されたことも手伝って,物体検出向けの標準的手法として定着した.
以下の図1は,FPNを用いたCNNバックボーンの拡張の様子を示したものである:

図1のように,序盤ではまず,バックボーンCNN(VGGNetやResNetなど)を用いて,Bottom-up的に特徴マップの解像度を減らしていく (図1左,Backbone Network)。

後半では,Feature Pyramid Networkを用いて,前半バックボーンで対応する同じ解像度の層からスキップ接続したのち加算した特徴マップを作りつつ,up convolutionでTop-down的に元画像の空間解像度に特徴マップを戻していく ( ※ このFPNを挿入する中間部を,BackboneとHeadの間にあるので「Neck」と呼ぶことが多い)。

物体検出などの出力では,後半の各解像度で個別に出力用のHeadを設けて特徴解像度別の出力を行う(図1 右側,「予測」)。

以上が,FPNによるCNNネットワーク構造の拡張である。

FPNでの「同スケール特徴マップ同士をつなぐスキップ接続」を,図1のようなアーキテクチャ図で眺めると横方向の層間接続であることからラテラル接続 (lateral connection)と呼ぶことも多い。