G検定模擬問題（3） 問71 解答

解答：

② 正解を定義するのが難しい場面においても,報酬を評価することで次の行動を選択することができる.

理由: 強化学習は、エージェントが環境との相互作用を通じて報酬を最大化する行動方針を学習する手法です。ロボット制御において、正解を明確に定義するのが難しい場合でも、適切な報酬を設定することでエージェントが試行錯誤を通じて最適な行動を学習できます。これが強化学習の大きなメリットです。

その他の選択肢について：