テキスト分析を分析する「テキストマイニング」をわかりやすく解説

データ分析

2021.06.15

文章やテキストの分析を可能にするのは「テキストマイニング」です。

ビジネスの現場におけるテキストデータには、主に以下があります。

電子メール
ソーシャルメディアへの投稿
チャット
サポートチケット
アンケート

アンケートなどでは、手書きのアンケート結果を担当者が手作業で集計してExcelなどで数値を集計して結果報告をしていることも多いです。

本記事では、このようなデータを使って効率的に深い示唆を得られるテキストの分析「テキストマイニング」について解説します。

1.テキストを分析する「テキストマイニング」とは？
- 1-1.データ分析の効率化に寄与する
- 1-2.テキストマイニングは、テキストを構造化データと呼ばれる形に変換し、視覚的に表現する
2.AI×SNSで景況感指数の調査を高速化&コスト削減した野村證券の事例も一つのテキストマイニング
3.テキストマイニングが特に寄与する代表的な2つの領域
- 3-1.お客様の声分析（VoC）
- 3-2.顧客のアンケート分析
4.テキストマイニングの大まかな5つのステップ
5.テキストマイニングの代表的な4つの手法
6.今すぐ自分で始められるテキストマイニング
まとめ

1.テキストを分析する「テキストマイニング」とは？

テキストマイニングとは、テキストを分析して新しい情報や洞察を発見するものです。以下は、様々なテキストマイニングの視覚的イメージです。

▼イメージ

1-1.データ分析の効率化に寄与する

例えば、3万人のアンケート結果を人間が見て理解するのは大変です。こういった大量のデータを瞬時に行えるのがテキストマイニングの威力です。

1-2.テキストマイニングは、テキストを構造化データと呼ばれる形に変換し、視覚的に表現する

メールやチャットなどのテキストは、非構造化データと呼ばれます。テキストマイニングは、そこから抽出された情報を分析に適する「構造化データ」と呼ばれる形に変換し、さらに分析したり、マインドマップ、チャートなどを使って視覚的に表現するものです。

テキストマイニングによって作成された構造化データは、データベース、データウェアハウス、ビジネスインテリジェンスダッシュボードに統合し、様々な分析に適用・利用されます。

構造化データ/非構造化データとは？（ざっくり）

構造化データ：事前に定義がされ、明確に形が定まり整形されたデータ。操作が容易でありクエリの実行・分析がしやすい形。

非構造化データ：音声、言葉、文章、動画、チャット、などのデータ（ネイティブ形式と言う）。自由度が高い分、扱いには専門知識が必要。

DXのお悩みを解決する「DXの羅針盤」をダウンロードする

2.AI×SNSで景況感指数の調査を高速化&コスト削減した野村證券の事例も一つのテキストマイニング

SNSの情報から「景況感指数」を出した野村證券の事例も、一つのテキストマイニングの姿です。

引用:野村證券『データサイエンスと新しい金融工学』

抽出AIではあらかじめ景況感を表すテキストデータを大量に用意し、それをAIに学習させ、それと類似したテキストデータを集めるようにします。また、評価AIでは、その言葉が景気にポジティブな内容ならプラスの値を、ネガティブな内容ならマイナスの値を返すようにすることで実現しています。AIでTwitterのテキストデータから情報を抽出する「抽出AI」と、抽出されたテキストデータの意味（景況感など）を評価する「評価AI」を用いています。

3.テキストマイニングが特に寄与する代表的な2つの領域

テキストマイニングでは、大量のテキストビッグデータの中に埋もれてしまうような事実や関係性を特定します。テキストマイニングは比較的新しい分野ですが、非構造化データが量・質ともに指数関数的に増加し続けていることからその活用シーンが拡大しています。

テキストマイニングはヘルスケアから研究機関まで様々な分野で活用されていますが、特に便益がある代表的な2つのビジネス領域を紹介します。

3-1.お客様の声分析（VoC）

お客様アンケートや製品レビューなど、お客様の声をモニタリングし、分析することで、改善すべき点を発見したり、お客様のニーズに関連したより良い洞察を得ることができます。

大量の自由形式の回答を、迅速かつ大量に処理するにはテキストマイニングで一択になるでしょう。何百、何千ものレビューを手作業で調査するのは大変なことです。テキストマイニングはこの作業を自動的に高品質に行うことが可能です。「お客様の声」のテーマでは、以下のような例があります。

NPS（Net Promotor Score）の分析
顧客アンケートの分析
製品レビューの分析
コールセンター苦情分析
クチコミ分析

3-2.顧客のアンケート分析

自社製品やサービスの品質向上のため、または自社や共催セミナーなどでのセミナー評価のため、定期的に顧客向けにアンケートを実施している企業は多いでしょう。

アンケートでテキストマイニングを使うことで、定量データではなく定性データの中から顧客のニーズを発掘したり、集計や分析時間の大幅な時間短縮が可能になります。

4.テキストマイニングの大まかな5つのステップ

当社でもメールの分析や音声の分析を提供していますが、標準的なテキストマイニングのステップは以下です。

Step1.データの収集

非構造化と呼ばれるデータを収集します。

当社の分析コンサルティングでテキストの分析/テキストマイニングを行う際は以下のようなものが主です。

電子メール
Webページ
PDFファイル
ブログ/WEBコンテンツ

Step2.データの前処理

データを収集したあとは、分析に必要なデータの前処理・クレンジングを行います。

具体的には、以下のような作業を行います。

不要な文字の削除
適切なフォーマットへのエンコーディング
文章/品詞の分解
不要に連なっている言葉の分割
スペル、文法の訂正

Step3.構造化データへ変換し蓄積する

テキストの分析で何をしたいか次第でどのような構造化データにするのかは変化しますが、クレンジング後に適切な構造化データへ変換します。

Step4.分析と可視化

データを見て理解し、データの傾向やパターンを分析します。

Step5.インサイトの共有

組織内で共有する体制や運用方法を考えたり、それらの結果によって意思決定プロセスを強化していきます。

テキストの分析結果を社内の関連部署で分かりやすく、スピーディに共有し、施策立てや企画に活用します。

5.テキストマイニングの代表的な4つの手法

テキストマイニングは様々な分析手法がありますが、以下が代表的なものです。

5-1.形態素解析

形態素解析とは、自然言語処理（NLP）の一つで、文章や言葉を最小単位である品詞に分解し、意味を割り出すことです。

例えば「私が今日スーパーに行く」という文章の場合、

私（名詞）/が（助詞）/今日（名詞）/スーパー（名詞）/に（助詞）/行く（動詞）

となります。

▼分解イメージ（Python）

5-2.クラスター分析

クラスター分析とは、文書自体、もしくは文書から抽出した単語を関連性の強さによっていくつかのグループに分けていく分析手法です。抽出した単語を利用したテキストマイニングでは、下の図のように階層が下がるごとにグループが細分化されていくような分析が可能です。

以下は、当社のブログ記事を分析したものです。

▼クラスター分析

「データ」「分析」「コンサルティング」「ファーム」は同じ青色のグループに属していますが、「データ」と「分析」、「コンサルティング」と「ファーム」はより強い結びつきがあることがわかります。

5-3.センチメント分析

センチメント分析とは文章内の言葉から「感情」を分析するものです。「ポジネガ（ポジティブ/ネガティブ）分析」などもこのセンチメント分析の一つです。

顧客やユーザーの感情、Twitterなどのつぶやきの分析などを行うことが多いです。

今回は、BIツールの１つであるTableau に関するレビュー文（以下4つの文章）をGoogleの「Cloud Natural Language」でポジネガ分析しました。

この分析における「Score」とはポジティブ度を表します。また、内容がポジティブであればあるほど1.0に近い値に、逆にネガティブであればあるほどー1.0に近い値になります。また、「Magnitude」は感情の揺れ動く振れ幅を表しています。これを見ることで、1つの文脈の中でどれほどネガティブな感情とポジティブな感情が揺れ動いているかがわかります。