G検定模擬問題（２） 問179 解答

解答　④　強化学習において、「報酬」と「価値」は同じ意味である

「ある状態 sにおいてある行動 aを取った時の価値」がわかれば、その価値の一番高い行動を選択すればよいはずです。
この価値のことを Q値あるいは状態行動価値と呼び、 Q(s,a)と書きます。
Q値は「報酬」ではなく「価値」であることに注意してください。つまり、Q値とは短期的な報酬ではなく、長期的な意味での価値を値として持っている関数です。

問題