G検定模擬問題（２） 問142

深層強化学習について述べた以下の文章を読み、空欄(ア)に最もよく当てはよる選択肢を1つ選ベ。
強化学習には行動価値関数Qというものを推定する手法がある。これは、(ア)を表す関数である。このQを推定することで次の行動を選択することができるようになる。また、DeepMindが開発した(イ)という手法は、Qをニューラルネットワークで置き換えている。

①　その状況において、取りうる行動の価値
②　その行動をとった時点で獲得できる報酬
③　これまでの行動により獲得した価値の総和
④　ゲームなどの環境に固有の明示的なルール

解答