検定模擬問題（3） 問95 解答

解答：

③ 「歩いた距離」を報酬として,3Dの人型モデルの歩行を学習する.

理由: 強化学習（Reinforcement Learning）は、エージェントが環境と相互作用しながら報酬を最大化する行動方針を学習する枠組みです。歩行のような連続的な行動や、試行錯誤を通じて最適な行動を見つける必要がある課題に適しています。「歩いた距離」を報酬として3Dの人型モデルの歩行を学習する問題は、典型的な強化学習の課題です。エージェントは様々な動作を試しながら、歩行の効率を高めるための最適な行動を学習します。

その他の選択肢について：

① データ集合をデータ点の距離を基準に多クラスに分類する。：これは教師なし学習（クラスタリング）の課題です。
② 文章データを用いて,ある単語の次に出現する単語を予測する。：これは教師あり学習（言語モデル）の課題です。
④ 入力画像を油絵の画風に変換する。：これはスタイル変換であり、通常は教師あり学習や生成モデルを使用します。

問題