以下の文章を読み、空欄(オ)に最もよく当てはまる選択肢を1つ選べ。
世の中にはテキスト形式のデータが大量に存在している。SNSの投稿や購入商品のレビュー、あるいはアンケート調査の結果などはその例である。これらのデータを適切に分析できれば、ビジネスにおける顧客の動向を把握することがで きる。こうした背景から、自然言語で害かれたテキストの取り扱いは重要である。
ここでは、日本語の自然言語処理の単純なフローを見てみよう。まず、形態素解析という手法を用いて、(ア)処理を行う。その後、データをクレンジングして(イ)。次に、BoW (Bag-of-Words)などの手法を用いて、形態素解析を行ったデータを(ウ)。さらに、分割した単語についてはTF-IDFなどの手法を用いて(エ)。あるいは、単語をより低次元の空間における実数ベクトルとして表現する(オ)を用いることもある。(オ)を利用すると、単語同士の意味的な関係性を捉えることができ、たとえば「king」—「man」 — 「woman」 =「queen」といったアナロジーを行うことができる。
① Seq2Seq
② Word2Vec
③ pix2pix
④ Doc2Vec
G検定模擬問題(2) 問87

