467 bag-of-words

自然言語のデータをベクトル化する手法。文の構造は考慮せず、登場した単語の数を文書内で数えて構造化する。

BoWでは文書中に出現する全てのユニークな単語にインデックスを割り当て、各単語が何度文書中に出現したかを数え上げます。そして出現回数を対応する単語のインデックスに割り当てることで文書ベクトルとします。