正しい選択肢は:
① 単語の出現頻度
解説:
TF-IDF(Term Frequency-Inverse Document Frequency)は、テキストデータにおける単語の重要度を測るための指標です。 TF-IDFは以下の2つの要素で構成されています:
1.TF(Term Frequency):
・ある文書内で特定の単語がどれだけ出現するか(出現頻度)を表します。

2.IDF(Inverse Document Frequency):
特定の単語が、全体の文書群の中でどれだけ希少であるかを測る指標です。

TFとIDFを掛け合わせたTF-IDFスコアを用いて、単語の重要性を評価します。
他の選択肢の説明:
②単語が出現する文書数
・これはIDFの計算に関わる要素です。
③出現する単語の種類
・文書内の語彙の種類を示すだけであり、TFの定義には当てはまりません。
④単語が出現する文書数の逆数
・これもIDFの計算に関係しています。

