306 報酬成形

報酬関数の設計と学習された方策の挙動の確認を繰り返して、適切に学習が行われるように報酬関数を作りこむこと。

実システムにはゲームスコアのような報酬関数が備わっていない。最終的な目標を達成するように学習を行うための報酬関数を設計する必要がある。