検定模擬問題(3) 問145 解答

解答:

② (Actor)行動を決定する (Critic)状態の価値を推定する

理由: Actor-Critic法は、強化学習における二つの主要なコンポーネント、ActorとCriticを組み合わせた手法です。

  • Actor: 環境に対してどの行動を取るかを決定します。具体的には、ポリシーを更新して行動を選択します。
  • Critic: 現在の状態や行動の価値(価値関数やQ値)を推定します。これにより、Actorが選択する行動の良し悪しを評価します。

その他の選択肢について:

  • ① (Actor)環境を生成する (Critic)報酬を決定する:環境の生成や報酬の決定はActor-Criticの役割ではありません。
  • ③ (Actor)報酬を決定する (Critic)環境を生成する:同様に、報酬の決定や環境の生成はActor-Criticの役割ではありません。
  • ④ (Actor)状態の価値を推定する (Critic)行動を決定する:この選択肢は役割が逆になっています。Actorが行動を決定し、Criticが状態の価値を推定します。

問題