G検定模擬問題(2) 問67 解答

解答 ① 寄与率

寄与率とは、ある主成分軸がデータの何割を説明しているかを表しています。下の図では、第一主成分がデータを60%説明しており、第二主成分がデータの40%を説明しています。このようにデータが二次元、つまり二つの変数であらわされるようなケースでは二つの主成分でデータの100%を説明します。

寄与率に着目する理由は、どの主成分を使えばよいかという指標になるからです。上の画像の例では変数が二つしかないため二つの主成分を使えばデータの100%を説明できました。一方で、大抵のデータでは二桁、ときには三桁を超える変数がある場合があります。こういった場合、主成分の数も二桁や三桁になってしまい、目的であったデータの要約ができなくなります。データの情報量を削減するために主成分を選択するわけですが、この際にデータの何割を説明しているかの基準となる寄与率を参考にすることで、データの特徴をつかんでいる主成分を採用することができます。

問題