G検定模擬問題(1) 問183

強化学習に関する文章として、誤りを含むものを一つ選べ。

①強化学習とは、ある環境下で目的とする報酬(スコア)を最大化するためには、どのような行動をとっていけばいいかを学習していくものである。
②Q 学習( Q learning )にディープラーニングを組み合わせたものを DQN と呼ぶ。
③AlphaGO は状態や行動の評価に RNN を用いている。
④AlphaGO では、どのような手を打つべきかの探索にはモンテカルロ木探索が用いられている。

解答