正しい選択肢は:
① 状態価値関数
解説:
状態価値関数(State Value Function)とは:


ここで:

他の選択肢の説明:
2.行動報酬関数
・強化学習の専門用語ではありません。
3.状態報酬関数
・状態に応じた即時報酬を表す場合がありますが、総報酬の期待値とは異なります。
4.行動価値関数(Action Value Function)
・行動価値関数は、特定の状態 s で特定の行動 a をとった場合の総報酬の期待値を表します。
・数式で表すと:

・本問では「特定の状態から行動を続けた場合」の期待値について尋ねているため、 状態価値関数が適切です。

