正しい選択肢は:
④ Self-Attentionの代わりに用いられるもので,Source-Target Attentionには用いられない。
解説:
Multi-Head Attentionは、Transformerアーキテクチャの中心的なコンポーネントであり、情報を効率的かつ効果的にエンコード・ デコードするために設計されています。これには、Self-AttentionやSource-Target Attentionの両方が含まれます。
各選択肢の説明:
1.各Headがそれぞれ異なる情報をエンコードすることができる
・正しい記述です。複数のHeadを用いることで、異なる特徴や関係性を同時に学習できます。
2.複数のAttentionを並列に計算し、それぞれの結果を結合して次の層に渡す
・正しい記述です。Multi-Head Attentionでは、並列計算を行った後、それぞれの結果を結合して処理を進めます。
3.クエリ・キー・バリューと呼ばれる3つのベクトルを入力して計算される
・正しい記述です。Self-AttentionやSource-Target Attentionでは、クエリ(Query)、キー(Key)、バリュー(Value)の 3つのベクトルを用いて計算します。
4.Self-Attentionの代わりに用いられるもので,Source-Target Attentionには用いられない
・不適切な記述です。Multi-Head Attentionは、Self-AttentionとSource-Target Attentionの両方に使用されます。
・Self-Attention:同じ系列内の関係性を捉える。
・Source-Target Attention:異なる系列間の関係性を捉える(例: 入力文と出力文の関連性)。

