１４５　方策勾配法

2021.10.102021.10.20

方策をあるパラメータで表される関数とし、（累積報酬の期待値が最大となるように）そのパラメータを学習することで、直接方策を学習していくアプローチ。
方策反復法を利用したアルゴリズム。

方策勾配法では価値ではなくエージェントの方策（≒エージェントの行動確率）を最適化することが目的です。