130 潜在的ディリクレ配分法(LDA)

トピックモデルの代表的手法。

LDAでは、文書のトピックを表す方法に確率を使用する方法です。例えば、3つのニュース記事で、それぞれが「スポーツ」「経済」「IT」「政治」のトピックを含む場合、各記事でトピックが該当する割合を確率で次のように表します。
ニュース記事1・・・「スポーツ:10%」「経済:50%」「IT:10%」「政治:30%」
ニュース記事2・・・「スポーツ:70%」「経済:10%」「IT:10%」「政治:10%」
ニュース記事3・・・「スポーツ:30%」「経済:10%」「IT:50%」「政治:10%」
上記は各記事の単語のトピックを分析して、4つのトピックに属している割合を表しました。つまり、LDAは確率を使って複数の文書のトピックを明らかにする手法です。