あなたはデータ分析を勉強しており,チュートリアル用途で有名なIrisデータセットの分析を行なってみることにした. Irisデータセットには,花の種類ごとに花弁の長さと幅、萼片(がくへん)の長さと幅の計4 つの 特徴量(単位はcm) が 記録されている.手始めにそれらの待徴量を使って主成分分析(PCA)による次元削減を行い,2次元座標上こプロットしてみたが,綺麗に花の種類ごとに分離することができなかった.ここで ,選ばれた主成分をよく見てみると,萼片の長さと幅の軸がほぽ同等になっていることに気づいた.
この時考えられる改善方法として,最も適切な選択肢を1つ選べ.
①特徴量を3つに絞って主成分分析を行う.
②カーネル主成分分析を行う.
③長さと幅で別々に主成分分析を行う.
④各特徵量のスケールが異なるので、標進化を行う.
G検定模擬問題(4) 問124

