142 Q値

価値関数のこと。

Q値というのは、将来を見据えたうえでその選択がどのくらい良いものなのかの基準となる値です。
報酬を得た場合報酬と繋がる行動のQ値を増加させていきます。
また、報酬を得なかった場合は、次の状態のうち最大のQ値を利用して更新します。
学習の目標はこのようにして適切なQ値を獲得することになります。