行動ごとの行動状態価値&遷移後の状態の報酬と状態価値から求め、最大の状態価値を更新する強化学習の手祛。
価値反復法 (Vlaue Iteration) とは,方策は「価値が最大となる行動を選択する」という仮定のもとで,価値を繰り返し更新しながら価値を推定する方法です。価値をベースに考えるので「Value ベース」の手法と呼ばれます。
【方策反復法】
方策反復法 (Policy Iteration) とは,価値反復法とは異なり,行動は方策に基づき選択されます。方策を更新していくことで方策を求めます。具体的には,方策を更新すると価値も更新されるため,更新された方策の下で価値を推定する「方策評価」と,推定した価値により方策を更新する「方策改善」を繰り返すことで方策を求めます。方策をベースに考えるので「policy ベース」と呼ばれます.

