検定模擬問題（3） 問184

オフライン強化学習の説明として,最も適切な選択肢を1つ選べ.

① オフライン強化学習に使うオフラインデータは,報酬のデータが含まれていない.
② オフライン強化学習は,実際の環境と相互作用しながら得たデータを逐次的に学習していく手法である.
③ オフライン強化学習は,学習過程での探索的な行動リスクを増大させるため,安全性が要求される実ロボット制御には不向きである.
④ オフライン強化学習は,ログデータを収集しやすい問題設定への学習手法として優れているため,推薦システ厶などのウェブサービスへの応用が試みられている.

解答