１４６ Actor-Critic

価値関数ベースおよび方策勾配ベースの考え方を組み合わせたアプローチ。

アクタークリティックは
行動を選択肢するアクター（actor）と、
アクターが選択した行動を評価するクリティック(critic)で構成される
強化学習のフレームワークの１つです。

学習の流れはシンプルで、
①：アクターは、方策π(s,a)をもとに行動を選択し、実行します。
②：環境から状態s′及び報酬rをクリティックが観測します。
③：得られた状態s′、報酬rを使ってアクターの取った行動の評価し、アクターに通知。アクターは評価をもとに方策の更新します。

この①、②、③を繰り返します。