テキスト分析を分析する「テキストマイニング」をわかりやすく解説

文章やテキストの分析を可能にするのは「テキストマイニング」です。

ビジネスの現場におけるテキストデータには、主に以下があります。

  • 電子メール
  • ソーシャルメディアへの投稿
  • チャット
  • サポートチケット
  • アンケート

アンケートなどでは、手書きのアンケート結果を担当者が手作業で集計してExcelなどで数値を集計して結果報告をしていることも多いです。

本記事では、このようなデータを使って効率的に深い示唆を得られるテキストの分析「テキストマイニング」について解説します。


1.テキストを分析する「テキストマイニング」とは?

テキストマイニングとは、テキストを分析して新しい情報や洞察を発見するものです。以下は、様々なテキストマイニングの視覚的イメージです。

▼イメージ

以下は弊社が過去に開催したテキストマイニングに関するセミナーの様子です。テキストマイニングの概要が掴める動画となっておりますので、是非ご視聴ください。

1-1.データ分析の効率化に寄与する

例えば、3万人のアンケート結果を人間が見て理解するのは大変です。こういった大量のデータを瞬時に行えるのがテキストマイニングの威力です。

1-2.テキストマイニングは、テキストを構造化データと呼ばれる形に変換し、視覚的に表現する

メールやチャットなどのテキストは、非構造化データと呼ばれます。テキストマイニングは、そこから抽出された情報を分析に適する「構造化データ」と呼ばれる形に変換し、さらに分析したり、マインドマップ、チャートなどを使って視覚的に表現するものです。

テキストマイニングによって作成された構造化データは、データベース、データウェアハウス、ビジネスインテリジェンスダッシュボードに統合し、様々な分析に適用・利用されます。

構造化データ/非構造化データとは?(ざっくり)
構造化データ:事前に定義がされ、明確に形が定まり整形されたデータ。操作が容易でありクエリの実行・分析がしやすい形。
非構造化データ:音声、言葉、文章、動画、チャット、などのデータ(ネイティブ形式と言う)。自由度が高い分、扱いには専門知識が必要。

2.AI×SNSで景況感指数の調査を高速化&コスト削減した野村證券の事例も一つのテキストマイニング

SNSの情報から「景況感指数」を出した野村證券の事例も、一つのテキストマイニングの姿です。

引用:野村證券『データサイエンスと新しい金融工学』

抽出AIではあらかじめ景況感を表すテキストデータを大量に用意し、それをAIに学習させ、それと類似したテキストデータを集めるようにします。また、評価AIでは、その言葉が景気にポジティブな内容ならプラスの値を、ネガティブな内容ならマイナスの値を返すようにすることで実現しています。AIでTwitterのテキストデータから情報を抽出する「抽出AI」と、抽出されたテキストデータの意味(景況感など)を評価する「評価AI」を用いています。


3.テキストマイニングが特に寄与する代表的な2つの領域

テキストマイニングでは、大量のテキストビッグデータの中に埋もれてしまうような事実や関係性を特定します。テキストマイニングは比較的新しい分野ですが、非構造化データが量・質ともに指数関数的に増加し続けていることからその活用シーンが拡大しています。

テキストマイニングはヘルスケアから研究機関まで様々な分野で活用されていますが、特に便益がある代表的な2つのビジネス領域を紹介します。

3-1.お客様の声分析(VoC)

お客様アンケートや製品レビューなど、お客様の声をモニタリングし、分析することで、改善すべき点を発見したり、お客様のニーズに関連したより良い洞察を得ることができます。

大量の自由形式の回答を、迅速かつ大量に処理するにはテキストマイニングで一択になるでしょう。何百、何千ものレビューを手作業で調査するのは大変なことです。テキストマイニングはこの作業を自動的に高品質に行うことが可能です。「お客様の声」のテーマでは、以下のような例があります。

  • NPS(Net Promotor Score)の分析
  • 顧客アンケートの分析
  • 製品レビューの分析
  • コールセンター苦情分析
  • クチコミ分析

3-2.顧客のアンケート分析

自社製品やサービスの品質向上のため、または自社や共催セミナーなどでのセミナー評価のため、定期的に顧客向けにアンケートを実施している企業は多いでしょう。

アンケートでテキストマイニングを使うことで、定量データではなく定性データの中から顧客のニーズを発掘したり、集計や分析時間の大幅な時間短縮が可能になります。


4.テキストマイニングの大まかな5つのステップ

当社でもメールの分析や音声の分析を提供していますが、標準的なテキストマイニングのステップは以下です。

Step1.データの収集

非構造化と呼ばれるデータを収集します。

当社の分析コンサルティングでテキストの分析/テキストマイニングを行う際は以下のようなものが主です。

  • 電子メール
  • Webページ
  • PDFファイル
  • ブログ/WEBコンテンツ

Step2.データの前処理

データを収集したあとは、分析に必要なデータの前処理・クレンジングを行います。

具体的には、以下のような作業を行います。

  • 不要な文字の削除
  • 適切なフォーマットへのエンコーディング
  • 文章/品詞の分解
  • 不要に連なっている言葉の分割
  • スペル、文法の訂正

Step3.構造化データへ変換し蓄積する

テキストの分析で何をしたいか次第でどのような構造化データにするのかは変化しますが、クレンジング後に適切な構造化データへ変換します。

Step4.分析と可視化

データを見て理解し、データの傾向やパターンを分析します。

Step5.インサイトの共有

組織内で共有する体制や運用方法を考えたり、それらの結果によって意思決定プロセスを強化していきます。

テキストの分析結果を社内の関連部署で分かりやすく、スピーディに共有し、施策立てや企画に活用します。


    5.テキストマイニングの代表的な4つの手法

    テキストマイニングは様々な分析手法がありますが、以下が代表的なものです。

    5-1.形態素解析

    形態素解析とは、自然言語処理(NLP)の一つで、文章や言葉を最小単位である品詞に分解し、意味を割り出すことです。

    例えば「私が今日スーパーに行く」という文章の場合、

    私(名詞)/が(助詞)/今日(名詞)/スーパー(名詞)/に(助詞)/行く(動詞)

    となります。

    ▼分解イメージ(Python)

    5-2.クラスター分析

    クラスター分析とは、文書自体、もしくは文書から抽出した単語を関連性の強さによっていくつかのグループに分けていく分析手法です。抽出した単語を利用したテキストマイニングでは、下の図のように階層が下がるごとにグループが細分化されていくような分析が可能です。

    以下は、当社のブログ記事を分析したものです。

    ▼クラスター分析

    「データ」「分析」「コンサルティング」「ファーム」は同じ青色のグループに属していますが、「データ」と「分析」、「コンサルティング」と「ファーム」はより強い結びつきがあることがわかります。

    5-3.センチメント分析

    センチメント分析とは文章内の言葉から「感情」を分析するものです。「ポジネガ(ポジティブ/ネガティブ)分析」などもこのセンチメント分析の一つです。

    顧客やユーザーの感情、Twitterなどのつぶやきの分析などを行うことが多いです。

    今回は、BIツールの1つであるTableau に関するレビュー文(以下4つの文章)をGoogleの「Cloud Natural Language」でポジネガ分析しました。

    この分析における「Score」とはポジティブ度を表します。また、内容がポジティブであればあるほど1.0に近い値に、逆にネガティブであればあるほどー1.0に近い値になります。また、「Magnitude」は感情の揺れ動く振れ幅を表しています。これを見ることで、1つの文脈の中でどれほどネガティブな感情とポジティブな感情が揺れ動いているかがわかります。

    今回の分析では、それぞれの文に含まれる言葉1つ1つをスコアリングして最終的に1つの文章のポジティブ度と感情の揺れ動きを決定しています。以下のようなアウトプットも可視化されます。

     

     

     

    今回は単語ベースのシンプルな分析手法とGoogleのツールを使ったものですが、文脈などをより深く掘り下げて分析するためにはディープラーニングなどより高度な手法をとる必要があります。

    5-4.主成分分析

    膨大な項目のデータを少数の項目にし、分析します。

    ▼主成分分析イメージ

    主成分分析のイメージ

    以下の記事にも主成分分析の詳細を解説しています。

    初学者のための代表的なデータ分析手法25選【イラストでわかりやすく解説】


    6.今すぐ自分で始められるテキストマイニング

    テキストマイニングは、ツールを使うと手軽ですが、ご自身でもすぐに始めることが出来ます。

    Excel

    シンプルなものにとどまりますが、Excelでもテキストマイニング、そしてその表現は可能です。

    カウントして棒グラフに

    単語の出現頻度をカウントするだけで、全体的なボリュームを明らかにすることができます。以下は、セミナーアンケートのサンプルデータの言葉を区切り、シンプルにカウントしたものです。これも一つのテキストマイニングです。

    ワードクラウド

    出現回数をサイズで表現するワードクラウドの例です。

    Python

    PythonはMecabなどの外部ツールと連携することでテキストマイニングに活用することができます。

    MeCab

    Mecab京都大学らが開発したオープンソース形態素解析エンジンです。

    形態素解析の結果はこのように出てきます。

    もちろんワードクラウドも出来ます。

    Exploratory

    Exploratoryでもワードクラウドが可能です。以下のワードクラウドは、任意期間において、「データ分析」と共起して出現しているTwitter上の言葉です。

    以下の記事ではExploratoryの詳細を公開しています。

    Exploratoryとは?|データ活用にレバレッジをかける革新的なツール

    KH Coder

    KH CoderはR言語を利用したツールで、簡単に共起ネットワークや階層別クラスター分析などを可視化することができます。

    • 共起ネットワーク

    • 階層別クラスター分析


    まとめ

    テキストマイニングは、企業の生産性を高め、顧客をより深く理解し、データに基づいた意思決定を行うために有用です。

    大規模なデータセットを分析し、センチメント分析、キーワード検出などのさまざまな技術を使用することで、お客様が製品について何を考え、何を感じているのかということについて、啓発的な観察が可能になります。

    そして何よりも素晴らしいのは、この技術が、プログラミングのスキルを持つ人だけでなく、マーケティング、販売、カスタマーサービス、生産に携わる人など、あらゆる業界の人が利用できることです。最初の一歩を踏み出す準備ができたら、手元にあるテキストデータを分析してみましょう。

    当社では、テキスト・言語データを使ったデータ分析や示唆出しの支援しています。ぜひこちらからお問い合わせください。

     

    コメント

    お問い合わせ

    サービスに関するご質問や講演依頼など、お気軽にお問い合わせください。2営業日以内にお返事いたします。

    データをビジネスに活かす
    デジタル化/DX/データ活用の成功事例