G検定模擬問題（4） 問102

RLHF (Reinforcement Learning with Human Feedback)の説明として,最も適切な選択肢を1つ選べ.

①10億パラメータ以下の言語モデルには適用できない．
②コストの問題から,人間によるフイ―ドバックは一度のみ行われることが多い.
③大規模言語モデルのセキュリティを高めるためには,RLHFのみで十分である.
④人間によるフィードバックに基づく強化学習で,人間にとって好ましい出力をするようにモデルを学習する．

解答