145 方策勾配法

方策をあるパラメータで表される関数とし、(累積報酬の期待値が最大となるように)そのパラメータを学習することで、直接方策を学習していくアプローチ。
方策反復法を利用したアルゴリズム。

方策勾配法では価値ではなくエージェントの方策(≒エージェントの行動確率)を最適化することが目的です。