G検定模擬問題（4） 問155

Transformerを画像分類タスクに適用したモデルとして,Vision Transformerが代表的である.Vision Transformerの説明として,最も適切な選択肢を1つ選べ.

①事前学習されたCNNに画像を入力し,その出力をTronsformerのデコータに入力する2段構成のモデルである.
② 事前学習をせずに、ImageNetの当時最高性能を達成したモデルである.
③畳み込みニューラルネットワーク(CNN) に比べ、圧倒的に少ないパラメータで高い精度を出すことが可能である．
④ Transformerのエンコーダとほぼ同様のアーキアクチャに、画像をバッチに分割したものを入力し,出力を得る．

解答