121 クラスタリング

教師なし学習のタスクの一つ。データ群をいくつかのクラスタ(集団)に分けることでデータの本質的な構造を浮かび上がらせる。

クラスタリングとは、データ間の類似度にもとづいて、データをグループ分けする手法。クラスタリングによってできた、似たもの同士が集まったグループのことをクラスタと呼ぶ。活用例として、顧客情報をクラスタリングして顧客をグループ分け(セグメンテーション)し、同じグループ内で同じ商品が複数回購入された場合、その顧客と同じグループに属している他の人たちにも同じ商品をレコメンドする、といったものがある。

クラスタリングと分類の違い
「データをグループ分けする」という言葉を聞くと、分類が思い浮かぶかもしれません。しかしクラスタリングと分類の意味合いは異なります分類は教師あり学習で、どのグループに所属するかの答えをもとに学習したモデルを用いて、答えが未知のデータがどのグループに所属するかを予測します。一方クラスタリングは教師なし学習で、どのグループに所属するなどの答えはなく、データをもとに特徴を学習しグループ分けします。