G検定模擬問題(2) 問86

以下の文章を読み、空欄(エ)に最もよく当てはまる選択肢を1つ選べ。

世の中にはテキスト形式のデータが大量に存在している。SNSの投稿や購入商品のレビュー、あるいはアンケート調査の結果などはその例である。これらのデータを適切に分析できれば、ビジネスにおける顧客の動向を把握することがで きる。こうした背景から、自然言語で害かれたテキストの取り扱いは重要である。
ここでは、日本語の自然言語処理の単純なフローを見てみよう。まず、形態素解析という手法を用いて、(ア)処理を行う。その後、データをクレンジングして(イ)。次に、BoW (Bag-of-Words)などの手法を用いて、形態素解析を行ったデータを(ウ)。さらに、分割した単語についてはTF-IDFなどの手法を用いて(エ)。あるいは、単語をより低次元の空間における実数ベクトルとして表現する(オ)を用いることもある。(オ)を利用すると、単語同士の意味的な関係性を捉えることができ、たとえば「king」—「man」 — 「woman」 =「queen」といったアナロジーを行うことができる。

① より高次元のベクトルとして表現する
② 各単語の品詞を特定する
③ 各単語が含まれる文章を生成する
④ 各単語の重要度を評価する

解答