120 トピックモデル

クラスタリングを行うモデルだが、複数のクラスタにデータを分類するのが特徴。

トピックモデルは、確率モデルの一種。つまり、何かが「出現する確率」を推定している。トピックモデルにおいてはこれは文章中の「単語が出現する確率」になる。これをうまく推定することができれば、似たような単語が出てくる文章が把握できるというわけである。
つまり、トピックモデルとは「文書における単語の出現確率」を推定するモデルといえる。

なお、そう聞くと(単語の出現確率を学習した)トピックモデルから文章が生成できるのでは・・・という気もしますが、上述の通りトピックモデルが推定するのは「単語が出現する確率」であり、文法規則は気にしません。つまり、トピックモデルとはあくまで文章における単語とその出現頻度にフォーカスしたモデルということである。