415 Vision Transformer

CNNを使わない新たな事前学習モデル。

Vision Transformer(ViT)」は画像処理で一般的なCNNなどを利用せずに純粋にTransformerのみを利用しているモデルです。そのことで、Transformerのもつ計算効率とスケーラビリティ(モデルを大きくすることへの許容性)の両方の恩恵を画像処理にもたらすことができたことが最大の革新といって良いとおもいます。
 Vision Transformerは、画像を「画像パッチ(patch)が連なったシーケンスデータ」として扱うことで画像処理にTransformerを適用することに成功しました。この画像パッチは、自然言語におけるトークン(単語)と同じように扱われます。大量のデータで事前学習し、複数の画像認識ベンチマーク(ImageNet、CIFAR-100、VTABなど)に転移学習してテストしたとき、Vision Transformerは最先端のCNN型モデルよりも優れた結果(もしくは同程度)を出したうえで、学習に必要な計算コストを大幅に減らしました。