２９４ デュエリングネットワーク

ディープニューラルネットワークのアーキテクチャや出力を工夫。

デュエリングネットワークは行動価値Q(s,a)Q(s,a)を状態価値V(s)V(s)と行動のアドバンテージA(s,a)A(s,a)に分けて考えます。
Q(s,a)=V(s)+A(s,a)
この式では、ある状態においてどの行動を取ったとしても、その状態そのものに対する共通の価値があると捉えている。例えば、どんな手を打ってもゲームに負けると分かっている盤面の状態など。

A(s,右に押す) は
A(s,右に押す) = Q(s,右に押す) – V(s)
のことで、Advantageと呼ばれます。Dueling Networkが何をしたいのか説明します。行動価値関数Qには、右に押そうが、左に押そうが、大体そのあと獲得できるであろう報酬合計が、状態sによって決まる部分があります。例えば、もう倒れる寸前の状態sであれば、actionが右に押そうが、左に押そうが、そのあと得られるであろう報酬合計はとても少ないと予測できます。

つまり、Q関数が持つ情報は、状態sだけで決まる部分と、行動aしだいで決まる部分に分離できます。

そこでQ関数を、状態sだけで決まる部分V(s)と、行動しだいで決まる部分A(s,a)に分けて学習し、最後の出力層でV(s)とA(s,a)を足し算して、Q(s,a)を求めます。DQNに比べた利点は、V(s)が行動aによらず毎回学習できる点です。これは選択できる行動が増えれば増えるほど、大きな利点になります。