２９３ ダブルDQN

経験再生やターゲットネットワークの使い方を工夫したDQN。

DQNでは行動価値を過剰評価しがちという問題がありました。これはQtgで行動価値を計算する際に最大値であるmaxQtgt(s,a)を使うためです。この行動価値の計算で使われている行動aaは必ずしもQネットワークが実際に選んだものとは限りません。特に学習初期ではターゲットネットワークが返す値には信頼性もなく最大値を常に選んでいると行動価値が過剰評価されがちになってしまいます。