解答:
② 正解を定義するのが難しい場面においても,報酬を評価することで次の行動を選択することができる.
理由: 強化学習は、エージェントが環境との相互作用を通じて報酬を最大化する行動方針を学習する手法です。ロボット制御において、正解を明確に定義するのが難しい場合でも、適切な報酬を設定することでエージェントが試行錯誤を通じて最適な行動を学習できます。これが強化学習の大きなメリットです。
その他の選択肢について:
- ① 非常時に比較的安全に動作を停止することができる。:これは強化学習に特有のメリットではなく、他の制御手法でも考慮されるべき点です。
- ③ センサーから得られる様々な物理量を高速に処理することができる。:これは強化学習の特定のメリットではなく、一般的なシステム性能の問題です。
- ④ 故障時に比較的速やかに復旧を行うことができる。:これは強化学習に特有のメリットではありません。

