2017年に発表された深層学習モデルであり、主に自然言語処理(NLP)の分野で使用される。自然言語などの時系列データを扱って翻訳やテキスト要約などのタスクを行うべく設計されているのは回帰型ニューラルネットワーク(RNN)と同様だが、Transformerの場合、時系列データを逐次処理する必要がないという特徴がある。たとえば、入力データが自然言語の文である場合、文頭から文末までの順に処理する必要がない。このため、Transformerでは回帰型ニューラルネットワークよりもはるかに多くの並列化が可能になり、トレーニング時間が短縮される。
①RNNやCNNを使わずAttention層のみで構築(Self-Attention層とTarget-Source‐Attention層のみで構築)
⇒ RNNを併用する場合と比べて、並列計算が可能になり計算が高速化しました。
CNNを併用する場合と比べて、長文の為の深いモデル構築が不要となりました。
②PositionalEncoding層の採用
⇒RNNなどを利用しないことで失われてしまうはずの文脈情報を、入力する単語データに「文全体における単語の位置情報」を埋め込むことで保持することに成功しました。
③Attention層におけるQuery-Key-Valueモデルの採用
⇒初期のAttentionにおける単純なSource-Target型から改良され、より単語同士の照応関係(アライメント)を正確に反映することができるようになったことで精度が改善されました。

