１４７ A3C

Actor-Criticの応用手法。強化学習の代表的なアルゴリズム。Actor-Criticの応用手法。
A3C（Asynchronous Advantage Actor-Critic）。

A3Cは、2016年にDeepMind社のVolodymyr Mnih （ヴォロジーミル・ムニ）の研究チームによって提案されました。

A3Cの特徴は、複数のエージェントが同じ環境で非同期に学習することです。名称”Asynchronous Advantage Actor-Critic”にある３つの”A”は「Asynchronous」と「Advantage」と「Actor」を表し、”C”は「Critic」を表します。「Asynchronous」は「非同期」という意味、つまり複数のエージェントによる非同期な並列学習を行うことです。「Advantage」とは、複数ステップ先を考慮して更新することを指しております。そして、ActorとCriticに関しては、Actor-Critic手法と関わっています。