最も不適切な選択肢は:
③ 学習済み畳み込みニューラルネットワーク(CNN)では,重みフィルターを可視化することで、画像のどこに注目して最終的な予測をしているのかを確認できたが,Vision Transformerでは,これができない.
解説:
③が不適切な理由:
・Vision Transformer (ViT) でも、Attentionマップを可視化することで、画像のどこに注目しているかを確認することが可能です。
・畳み込みニューラルネットワーク(CNN)は、フィルターの重みを可視化する手法がありますが、ViTではSelf-Attentionを可視化することで、 モデルがどの領域に注意を向けているかを確認できます。
・ViTのAttentionマップは、CNNのフィルターとは異なる形で可視化を行いますが、「どこに注目しているか」の分析が可能です。
他の選択肢の妥当性:
① BERTは双方向Transformerモデルとして知られ、その事前学習に特徴がある.中でも,Next Sentence Prediction (NSP)は,2文が渡され,
連続した文かどうか判定するタスクとして有名である.
・適切です。
BERT(Bidirectional Encoder Representations from Transformers)は、双方向のコンテキスト情報を学習するモデルであり、NSPはBERTの
事前学習タスクの1つです。
② 画像処理分野へのTransformer の応用として、畳み込みニューラルネットワーク(CNN)を使わない新たな事前学習モデルである
Vision Transformerが提案された.
・適切です。
Vision Transformerは、CNNを使用せず、Self-Attentionを活用して画像処理を行う新しいアプローチとして提案されました。
④ TransformerはAttentionとFeed Forward Networkを使用したモデルであり..從来のRNN/LSTMを使用したモデルに比べて並列計算による高速化が
可能になるなど利点が多い.
・適切です。
Transformerは、Attentionメカニズムを用いることで、RNN/LSTMのように逐次処理を行う必要がなく、並列化が可能で高速な学習が実現できま す。

