146 Actor-Critic

価値関数ベースおよび方策勾配ベースの考え方を組み合わせたアプローチ。

アクタークリティックは
行動を選択肢するアクター(actor)と、
アクターが選択した行動を評価するクリティック(critic)で構成される
強化学習のフレームワークの1つです。

学習の流れはシンプルで、
①:アクターは、方策π(s,a)をもとに行動を選択し、実行します。
②:環境から状態s′及び報酬rをクリティックが観測します。
③:得られた状態s′、報酬rを使ってアクターの取った行動の評価し、アクターに通知。アクターは評価をもとに方策の更新します。

この①、②、③を繰り返します。