解答:
②内発的報酬(intrinsic reward)
理由: Rainbowは、ディープ強化学習アルゴリズムの一種であり、複数の強化学習手法を組み合わせています。具体的には、以下の手法が含まれています:
- ノイジーネットワーク (Noisy Networks)
- デュエリングネットワーク (Dueling Networks)
- ダブルDQN (Double DQN)
- その他に、Prioritized Experience Replay, Multi-step Learning, Distributional RL, Categorical DQN
内発的報酬 (intrinsic reward) は、探索のための報酬設計などに用いられることがありますが、Rainbowのアルゴリズムに組み込まれている7つの手法の一つではありません。

