G検定模擬問題（4） 問48 解答

正しい選択肢は：
① 状態価値関数

解説:
状態価値関数（State Value Function）とは:

ここで：

他の選択肢の説明:
2.行動報酬関数
　・強化学習の専門用語ではありません。
3.状態報酬関数
　・状態に応じた即時報酬を表す場合がありますが、総報酬の期待値とは異なります。
4.行動価値関数（Action Value Function）
　・行動価値関数は、特定の状態 s で特定の行動 a をとった場合の総報酬の期待値を表します。
　・数式で表すと：

　・本問では「特定の状態から行動を続けた場合」の期待値について尋ねているため、状態価値関数が適切です。

問題