G検定模擬問題（3） 問38 解答

解答：

②内発的報酬(intrinsic reward)

理由: Rainbowは、ディープ強化学習アルゴリズムの一種であり、複数の強化学習手法を組み合わせています。具体的には、以下の手法が含まれています：

ノイジーネットワーク (Noisy Networks)
デュエリングネットワーク (Dueling Networks)
ダブルDQN (Double DQN)
その他に、Prioritized Experience Replay, Multi-step Learning, Distributional RL, Categorical DQN

内発的報酬 (intrinsic reward) は、探索のための報酬設計などに用いられることがありますが、Rainbowのアルゴリズムに組み込まれている7つの手法の一つではありません。