解答 ④ 強化学習において、「報酬」と「価値」は同じ意味である
「ある状態 sにおいてある行動 aを取った時の価値」がわかれば、その価値の一番高い行動を選択すればよいはずです。
この価値のことを Q値 あるいは状態行動価値と呼び、 Q(s,a)と書きます。
Q値は「報酬」ではなく「価値」であることに注意してください。つまり、Q値とは短期的な報酬ではなく、長期的な意味での価値を値として持っている関数です。
解答 ④ 強化学習において、「報酬」と「価値」は同じ意味である
「ある状態 sにおいてある行動 aを取った時の価値」がわかれば、その価値の一番高い行動を選択すればよいはずです。
この価値のことを Q値 あるいは状態行動価値と呼び、 Q(s,a)と書きます。
Q値は「報酬」ではなく「価値」であることに注意してください。つまり、Q値とは短期的な報酬ではなく、長期的な意味での価値を値として持っている関数です。