G検定模擬問題(4) 問48  解答

正しい選択肢は:
① 状態価値関数

解説:
状態価値関数(State Value Function)とは:

ここで:

他の選択肢の説明:
2.行動報酬関数
 ・強化学習の専門用語ではありません。
3.状態報酬関数
 ・状態に応じた即時報酬を表す場合がありますが、総報酬の期待値とは異なります。
4.行動価値関数(Action Value Function)
 ・行動価値関数は、特定の状態 s で特定の行動 a をとった場合の総報酬の期待値を表します。
 ・数式で表すと:

 ・本問では「特定の状態から行動を続けた場合」の期待値について尋ねているため、 状態価値関数が適切です。

問題