G検定模擬問題（4） 問130 解答

最も不適切な選択肢は：
② データの前処理段階では、バイアスは生じることはない。

解説：
AIの開発過程におけるバイアスとは、データの収集、処理、学習、運用の各フェーズで、偏った結果をもたらす要因となるものです。
AIの公平性や信頼性を確保するためには、バイアスの発生源を正しく認識し、適切に対処する必要があります。

各選択肢の評価：
① アンケートから集計されるデータは、アンケート設計手法によってもバイアスが生じうる。
・適切：
アンケートの設計方法（質問の仕方、選択肢の提示、回答者の選定など）により、収集されるデータに偏りが生じる可能性があります。
例えば、特定の集団に偏った質問をしたり、誘導的な質問を設定した場合、データにバイアスが含まれます。
② データの前処理段階では、バイアスは生じることはない。
・不適切：
データの前処理（例：欠損値の補完、スケーリング、フィルタリング、特徴選択など）の段階でもバイアスが入り込む可能性があります。例えば、特定のデータを除外したり、異常値処理を誤ると、結果に偏りが生じます。
③ 学習済みモデルが生成された後に、その学習済みモデルからバイアスが再生産されることもある。
・適切：
学習済みモデルは、学習時のデータのバイアスを受け継ぎ、そのまま不公平な結果を出力し続けることがあります。これは「バイアスの再生産」として知られています。
④ 何がデータ化されていないかを考えることは、バイアスの存在を認識するきっかけとなりうる。
・適切：
データには「どの情報が含まれていないか」を考えることが重要です。たとえば、特定の属性やグループがデータに含まれていないと、モデルがそれを考慮できず、結果に偏りが生じる可能性があります。

問題