単語をベクトルとして入力する必要がある。各単語に異なる整数値を順に割り当ててID化し、このIDに相当するベクトルの次元の値だけが1で他がすべて0となるように変換されたベクトル。
例えば、
犬→1、猫→2、ウサギ→3
のように数字に変換する方法が考えられます。
しかし、このように変換すると、(例えば線形回帰などで分析を行う際に)猫はウサギと犬の中間などと解釈されてしまい、おかしな分析結果になってしまう場合があります。
そこで、
犬→(1,0,0)(1,0,0)、猫→(0,1,0)(0,1,0)、ウサギ→(0,0,1)(0,0,1)
のように、それぞれを3次元のOne-hotベクトルで表現する方法(One-hot表現、ワンホット表現、One of K encoding などと言います)があります。
One-hot表現のメリットは、変数の全ての値を平等に扱えることです。
One-hot表現には、変数の数が多くなるというデメリットがあります。

