307 オフライン強化学習

何らかの方法によて収集された固定のデータセットがエージェントに与えられることを想定し、学習過程では、実際の環境との相互作用をすることなく、そのデータセットよりも高い性能を持つ方策を学習しようとする。

オフラインデータ(事前に集められたデータ)で学習する。オンライン強化学習(環境からインタラクティブにデータを収集し学習する)よりも効率的な学習ができる。