Team Frequency-Inverse Document Frequency:単語の重要度のようなものを計算する手法。
- どの文章にもよく出てくる単語の重要度は下げて、あまり出てこない単語の重要度を上げるための工夫です。
- TF-IDFは、「単語の出現回数(=TF)」に「その単語が出現する文書数(DF)」で割ることで単語の出現回数に調整を加えるイメージです。
TFとIDFという2つの値を掛け合わせたもの。TFは1つの文書内での単語の出現割合(単語の頻度を文書内の全単語数で割ったもの)であり、IDFはある単語が出現する文書の割合(ある単語が出現する文書の数を全文書数で割ったもの)の逆数を取り、さらに対数をとったもの。TF-IDFは1文書内での出現回数の多く、出現する文書の数が少ない単語ほど大きな値となるため、TF-IDFの値の大きさがある程度その単語の重要度を表している。(logを使っているのは、文書数の規模に応じた変動影響を緩和するためです。)(右辺に1を足す場合もあります。これはidfが0にならないようにするためです)

