以下の選択肢のうち、強化学習に関する説明として適切でない選択肢を1つ選べ。
① 状態行動価値とは、次にとる行動の長期にわたる価値のことである
② 深層強化学習では、ニューラルネットワークにより「状態行動価値」を近似する
③ 学習が進むにつれてエージェントが行動の範囲を狭めてしまうことを、検索と利用のジレンマという
④ 強化学習において、「報酬」と「価値」は同じ意味である
G検定模擬問題(2) 問179
以下の選択肢のうち、強化学習に関する説明として適切でない選択肢を1つ選べ。
① 状態行動価値とは、次にとる行動の長期にわたる価値のことである
② 深層強化学習では、ニューラルネットワークにより「状態行動価値」を近似する
③ 学習が進むにつれてエージェントが行動の範囲を狭めてしまうことを、検索と利用のジレンマという
④ 強化学習において、「報酬」と「価値」は同じ意味である