307 オフライン強化学習 2021.10.122021.10.26 何らかの方法によて収集された固定のデータセットがエージェントに与えられることを想定し、学習過程では、実際の環境との相互作用をすることなく、そのデータセットよりも高い性能を持つ方策を学習しようとする。 オフラインデータ(事前に集められたデータ)で学習する。オンライン強化学習(環境からインタラクティブにデータを収集し学習する)よりも効率的な学習ができる。