G検定模擬問題(3) 問38 解答

解答:

②内発的報酬(intrinsic reward)

理由: Rainbowは、ディープ強化学習アルゴリズムの一種であり、複数の強化学習手法を組み合わせています。具体的には、以下の手法が含まれています:

  • ノイジーネットワーク (Noisy Networks)
  • デュエリングネットワーク (Dueling Networks)
  • ダブルDQN (Double DQN)
  • その他に、Prioritized Experience Replay, Multi-step Learning, Distributional RL, Categorical DQN

内発的報酬 (intrinsic reward) は、探索のための報酬設計などに用いられることがありますが、Rainbowのアルゴリズムに組み込まれている7つの手法の一つではありません。

問題