G検定模擬問題（２） 問179

以下の選択肢のうち、強化学習に関する説明として適切でない選択肢を1つ選べ。

①　状態行動価値とは、次にとる行動の長期にわたる価値のことである
②　深層強化学習では、ニューラルネットワークにより「状態行動価値」を近似する
③　学習が進むにつれてエージェントが行動の範囲を狭めてしまうことを、検索と利用のジレンマという
④　強化学習において、「報酬」と「価値」は同じ意味である

解答