137 ε-greedy方策

バンディットアルゴリズムの一種。報酬が最大となある行動を選択するが一定確率εで探索する、すなわちランダムな行動を選択するというもの。

ε(イプシロン)-greedy法とは、強化学習において最適なアクションを効率よく学習するための手法で、学習初期は学習結果(Q値)に基づいたアクションを行わずに、できるだけランダムにアクションを行い、アクションに対する結果を広く確認します。 そして学習が進むに従い学習結果に基づいたアクションを行う方法のことです。アクションに対する反応を広く確認する様からgreedy(貪欲)と名付けられています。

最も単純な方策としてε-greedy方策が知られています。この方策では各ステップごとに確率εで探索、1−εで活用を行います。具体的には、
探索時:すべてのアームをランダムに選択
活用時:それまでの試行の結果から、報酬の標本平均\hat{\mu}_{i}の最も高かったアームを選択

という方法でアームを選択していくことで累積報酬の最大化を目指します。
この方策はシンプルで判りやすいですが、最適な探索回数を見つけるのが困難という課題があり、探索と活用のバランスをうまく調整できないと次のような問題が生じます。

探索が少ない → 最適なアームを発見できず、活用時に最適でないアームを引き続ける可能性がある
探索が多い  → 最適でないアームを余分に引いてしまう