●用語集

●用語集

403 言語モデル

Language Model:過去に入力された単語列から次に来る単語を予測するというもので、音声処理でも自然言語処理でも使われる。言語モデルとは、人間が話したり書いたりする「言葉」を、単語の出現確率でモデル化したものです。昨今ではニューラル...
●用語集

402 ELMo

Enbeddings from Language Models:文脈を考慮した分散表現を得る手法。一つの単語に一つの意味しか持たせられませんでしたが、ELMoではDeepなネットワークで学習することにより、文脈に応じた単語の意味を表すことが...
●用語集

401 fastText

word2vecを提案したトマス・ミコロフラによって新たに開発された、word2vecの延長線上にあるライブラリ。単語埋め込みを学習する際に単語を構成する部分文字列の情報も含める。そのことで訓練データには存在しない単語(Out of Voc...
●用語集

400 CBOW

周辺の単語を与えてある単語を予測するモデル。前後のコンテクストをどの程度利用するかはモデル作成ごとに判断しますが、前後1単語をコンテクストとする場合、例えば下記だと「毎朝」「を」から「?」の単語を推測することになります。CBOWモデルは出力...
●用語集

399 スキップグラ厶

skip-gram:ある単語を与えて周辺の単語を予測するモデル。Word2vecの手法の一つ。skip-gramモデルはCBOWで扱うコンテクストとターゲットを逆転させたようなモデルになります。下記のように中央の単語から前後の複数のコンテク...
●用語集

398 word2vec

自然言語処理において単語をベクトルとして表現し、ベクトル間の距離や関係として単語の意味を表現しようとする手法。Word2vecは、2013年にGoogleの研究者トマス・ミコロフ氏によって提案された手法です。Word2Vecには、skip-...
●用語集

397 分散表現

局所表現を連続的(実数胆全体をとる)で、情報が蜜であり(値が0である次元が少ない)、次元数の低いベクトルに変換する単語の表現。分散表現では、ある概念を表現する際に、ほかの概念との共通点や類似性と紐づけながら、ベクトル空間上に表現します。以下...
●用語集

396 局所表現

ワンホットベクトルは値が0か1しかなく離散的で、1をとる次元が1つしかないため情報が疎であり、次元数が単語の種類数が等しいため、非常に高次元であるという特徴があるという表現。
●用語集

395 単語埋め込み

自然言語処理(NLP)における一連の言語モデリングおよび特徴学習手法の総称であり、単語や語句が実ベクトル空間上に位置づけられる。単語の数だけの次元を持つ空間から、はるかに低い次元を持つ連続ベクトル空間へと数学的な埋め込みが行われる。
●用語集

394 TF-IDF

Team Frequency-Inverse Document Frequency:単語の重要度のようなものを計算する手法。どの文章にもよく出てくる単語の重要度は下げて、あまり出てこない単語の重要度を上げるための工夫です。TF-IDFは、「...