G検定模擬問題(4) 問155 解答

最も適切な選択肢は:
④ Transformerのエンコーダとほぼ同様のアーキテクチャに、画像をバッチに分割したものを入力し、出力を得る。

解説:
Vision Transformer(ViT)とは:
・Vision Transformer(ViT)は、画像を「パッチ」に分割し、それをトークンとして処理することで、従来のCNNの代わりにTransformerアーキテクチャを 用いた画像分類モデルです。
・ViTは、自然言語処理(NLP)で用いられるTransformerのエンコーダ構造を流用し、画像を扱うために適応させています。

主な特徴:
1.画像のパッチ化:
・入力画像を一定サイズの小さなパッチ(例:16×16ピクセル)に分割し、それぞれを線形埋め込み(トークン化)して処理。
2.Transformerアーキテクチャの適用:
・Transformerのエンコーダ層を使用し、画像全体のグローバルな関係を学習する。
3.位置エンコーディングの追加:
・順序情報がない画像データに対して、パッチの順序情報を学習するために位置エンコーディングを加える。
4.事前学習が重要:
・ViTは大量のデータで事前学習を行うことで、従来のCNNに匹敵する、またはそれを超える精度を達成。

① 事前学習されたCNNに画像を入力し、その出力をTransformerのデコーダに入力する2段構成のモデルである。
・誤り:
・ViTはCNNを使用せず、最初からTransformerを用いた構造です。
・CNNを利用したハイブリッドモデル(例:Swin Transformer)は別の手法です。
② 事前学習をせずに、ImageNetの当時最高性能を達成したモデルである。
・誤り:
・ViTは事前学習が重要であり、大量のデータ(例えば、ImageNet-21kなど)で事前学習を行うことで高い精度を達成しました。
・事前学習なしでは高い精度を出すのが困難です。
③ 畳み込みニューラルネットワーク(CNN)に比べ、圧倒的に少ないパラメータで高い精度を出すことが可能である。
・誤り:
・ViTは、CNNに比べてより多くのパラメータを必要とする場合が多く、計算コストが高いです。
・そのため、事前学習データやGPUリソースが必要になります。
④ Transformerのエンコーダとほぼ同様のアーキテクチャに、画像をバッチに分割したものを入力し、出力を得る。
・正しい:
・Vision Transformerの基本的な動作原理を正確に説明しています。
・画像を小さなパッチに分割し、それをTransformerエンコーダに入力して学習します。

問題