強化学習の手法であるActor-Critc法において,ActorとCriticの役割として最も適切な選択肢を1つ選べ.
① (Actor)環境を生成する (Critic)報酬を決定する
② (Actor)行動を決定する (Critic)状態の価値を推定する
③ (Actor)報酬を決定する(Critic)環境を生成する
④ (Actor)状態の価値を推定する(Critic)行動を決定する
強化学習の手法であるActor-Critc法において,ActorとCriticの役割として最も適切な選択肢を1つ選べ.
① (Actor)環境を生成する (Critic)報酬を決定する
② (Actor)行動を決定する (Critic)状態の価値を推定する
③ (Actor)報酬を決定する(Critic)環境を生成する
④ (Actor)状態の価値を推定する(Critic)行動を決定する