Actor-Criticの応用手法。強化学習の代表的なアルゴリズム。Actor-Criticの応用手法。
A3C(Asynchronous Advantage Actor-Critic)。
A3Cは、2016年にDeepMind社のVolodymyr Mnih (ヴォロジーミル・ムニ)の研究チームによって提案されました。
A3Cの特徴は、複数のエージェントが同じ環境で非同期に学習することです。名称”Asynchronous Advantage Actor-Critic”にある3つの”A”は「Asynchronous」と「Advantage」と「Actor」を表し、”C”は「Critic」を表します。「Asynchronous」は「非同期」という意味、つまり複数のエージェントによる非同期な並列学習を行うことです。「Advantage」とは、複数ステップ先を考慮して更新することを指しております。そして、ActorとCriticに関しては、Actor-Critic手法と関わっています。

