145 方策勾配法 2021.10.102021.10.20 方策をあるパラメータで表される関数とし、(累積報酬の期待値が最大となるように)そのパラメータを学習することで、直接方策を学習していくアプローチ。方策反復法を利用したアルゴリズム。 方策勾配法では価値ではなくエージェントの方策(≒エージェントの行動確率)を最適化することが目的です。