“データマイニング”と言う言葉を講演やセミナー、学術的な場で最近お聞きになってデータマイニングとは何かを調べようとされている方は多いです。
データマイニングとは、大量のデータから新たな知見を掘り起こすプロセスです。技術や手法の進歩によって大量のデータを収集しデータにアクセスできるようになった現代において、データマイニングの技術は非常に有用です。
当社はデータ分析/データマイニング/データ視覚化のコンサルティングファームであり、データマイニングにまつわる様々な疑問にお答えすることが多いです。そこで本記事では、データマイニングについて初心者にもわかりやすく解説します。
本記事を読み終えていただくことで、データマイニングの全体像や注意点を認識し、データマイニングを行うための一歩を踏み出せるはずです。
目次
1.データマイニングとは、大量のデータから法則性やパターンを発見するための探索活動や分析である
データマイニング(Data mining)とは「大量のデータの中から、有用なパターンや法則性を発見するプロセス」のことです。
データマイニングという言葉は「データベースからの知識発見(knowledge discovery in databases, KDD)」という研究分野において1990年代から使われ始め、コンピュータの処理能力や分析手法の発展とともに広く浸透してきました。
また、「マイニング(mining)」は日本語で「採鉱」や「採掘」といった意味です。ですので「データという”山”から、有用な知見という”宝石”を採掘する」とイメージすると理解しやすいです。
2.「データ分析」ではなく「データマイニング」と表現するのは知見発見に焦点があるとき
「データマイニング」という言葉には唯一の定義はありません。
実務上は、「データ分析」と同じ意味で使用されていることも多く、データ分析はデータマイニングを包含している概念とも言えます。
しかし、特に「知見の発見」に焦点を当てる文脈の際には「データマイニング」という言葉を使うことが多いです。データマイニングでは法則性やパターンが「正しいか」よりも、「原石を発見する」方により重点が置かれます。そのため「データマイニング」と言うときには、事前に断定形の強い仮説は持たず、「この切り口で数値を見たら何か法則性がありそう」といったいわば”弱い仮説”に基づいて様々な数値を探索的に見て理解するスタンスがよくとられます。
3.データマイニングの活用方法は主に4つある
データマイニングによってデータから様々な知見が得られることがあります。データマイニングから得られる知見の代表的なものとしては以下の4つがあるでしょう。
- 予測
- 分類
- クラスタリング
- パターンの発見
本章ではこの4つの概要及び代表的な手法について紹介していきます。また、本記事で紹介している分析手法は以下の記事で具体的に紹介しています。本記事の後に読んでいただくことで、より一層データマイニングのイメージが湧くと思います。
3-1.予測:将来どのような値になっているか推測する
データマイニングによって、現状のデータをもとに将来の来客数や販売数量を予め見積もることができます。毎回ドンピシャの値を予測することは難しいですが、勘と経験による目算や単純に等倍した数値よりも、実現値との誤差が小さい数値を参照できるようになります。
予測を行う主な目的は、ミスの小さい計画を立てることです。例えば来客数を予測することで、その日の最適なシフトの人員の調整や、在庫を最小にするような仕入れの調整ができるようになります。
予測を行うため分析手法として、例えば以下が挙げられます。
- 移動平均、指数平滑
- 重回帰分析
- 数量化1類
- ニューラルネットワーク
3-2.分類:どのグループに当てはまるかを推測する
分類とは、データがどのグループに当てはまりそうか推測するタスクのことです。上の予測について、予測先が売上等の数量ではなく、グループ(クラス)の場合に「分類」と表現されます。2グループへの分類なら2クラス分類、3つ以上のグループへの分類なら多クラス分類を呼ばれます。
データから分類を行うメリットは、精度よく判断を自動化できる点です。
例えばスパムメールの判別は分類の代表的な例です。スパムメールの分類では、私たちが過去に「これはスパムメールだ」としたメールの内容に基づいて、新たに来るメールがスパムメールに該当するかどうかを推測しています。他にも「この人は解約しそうかどうか、「この商品は3日以内に売れるかどうか」といった目的にも用いられます。
分類を行うため分析手法として、例えば以下が挙げられます。
- 判別分析
- ロジスティク回帰分析
- サポートベクターマシン
- 決定木、ランダムフォレスト
- ナイーブベイズ
- k近傍法
- ニューラルネットワーク
3-3.クラスタリング:似た者同士をグルーピングする
クラスタリングとは、データを似た者同士のグループ(クラスター)に分ける手法のことです。
クラスタリングはセグメンテーションを行う際によく用いられます。例えば過去の購買履歴から顧客を複数のグループに分け、購買の傾向が似た消費者を特定したりします。
なお、クラスタリング(clustering)は上の分類(classification)と似たように見えますが、両者は全くの別物です。
分類では既定のグループのどれに含まれるかを特定するのに対して、クラスタリングは似た者同士をまとめる(どのサンプルとどのサンプルが同じグループに含まれそうか)を考える手法であり、事前に分類先は用意されていません。事前にグループを用意する必要がない分、「どういう風にデータをグルーピングしたらいいかわからない」といったときに特に効果を発揮します。
クラスタリングを行うため分析手法として、以下の2つ挙げられます。
- 階層的クラスタリング
- 非階層的クラスタリング
3-4.パターンの発見:高頻度に出現する事象を探る
パターンの発見はデータマイニングを行う代表的な目的の一つです。パターンと言っても色々種類がありますが、代表的なのは以下の2つです。
アソシエーション:Xのとき、Yが起こりやすい
- 例)おにぎりを買う人は豚汁も一緒に買いやすい
- 活用例)おにぎりと豚汁のセットを販売市、購買単価を上げる
系列パターン:Xのあと、Yが起こりやすい
- 例)Aの製品を買った数日後、Bの製品を買う人が多い
- 活用例)Aの製品の購買後にB製品をレコメンドする
パターンを発見するための分析手法として、以下の2つ挙げられます。
- Apriori
- FP-growth
- その他予測や分類で使用できる手法
4.データマイニングの3つのユースケース
データマイニングは様々な分野で使用されています。本記事ではわかりやすい例として、売上データ、テキストデータ、アンケートデータの3つの事例について紹介します。
4-1.売上データのマイニング
最売上が記録されるPOSデータや、POSデータに顧客データが紐づいたID-POSデータの普及によって、最近は小売業でもデータマイニングは盛んに行われるようになりました。
売上データを用いることで、将来的な売上を予測することができ、その予測を用いてシフトの調整や商品在庫の管理などに役立てることができます。またID-POSなどで来客者の情報がわかれば、地域の消費者の特徴に合わせた商品展開やターゲットを絞り込んだ広告の出稿を行うことが可能になります。
小売業におけるデータマイニングの事例としてはワークマンが有名です。ワークマンでは半数の店舗に「完全自動発注システム」というシステムを入れています。これは気候や販売実績などを考慮に入れ各店舗における各商品の需要を予測し、理想的な在庫数を算出、店舗在庫と比較したときの商品数を自動で発注するというものです。実際にこのシステムを導入した店舗は非導入店舗より平均して4~5%売上が向上しています。(参考:酒井大輔『ワークマンは 商品を変えずに売り方を変えただけで なぜ2倍売れたのか』, 日経BP)
4-2.テキストデータのマイニング
数値だけでなく、文字情報もデータマイニングでき、「テキストマイニング」と呼ばれます。アンケートの自由記述回答やSNSの投稿がよくデータマイニングの対象になります。テキストデータの分析は通常の数値データと比較して分析の難易度が高いですが、消費者の生の声がそのままデータとなっているため、そのぶん解釈しやすく面白い発見があることも多いです。
わかりやすい事例として、飲食店情報サイトやアプリに関するアンケートの事例を紹介します。マイボイスコム株式会社は『飲食店情報の検索に関するアンケート調査』を行い最もよく使う飲食店情報サイトやアプリについて、最もよく使う理由を自由記述でリサーチを行いました。その結果、サービスによってそれぞれ利用状況に特徴があることが示唆されています。
利用者が多い「食べログ」と「ぐるなび」が知名度や口コミの充実度でリードする一方、「ホットペッパーグルメ」と「一休.com レストラン」は、ネット予約の利便性や固有の割引プラン、信頼性といった点で対抗している状況が示唆されました。(出典:PR TIMES「テキストマイニング(TextVoice)による分析事例>飲食店情報の検索について」)
4-3.アンケートデータのマイニング
アンケートには自由記述回答だけではなく、「とてもそう思う/思わない」、「当てはまる/当てはまらない」のような選択形式のものもあります。こうした選択式のアンケートデータに対してもデータマイニングを行うことで、「どの質問項目に当たる内容が主要な原因/結果だったか」というのを明らかにできます。
弊社でも以前、電子機器メーカー様にテレワーク導入後の満足度アンケート分析をご支援させていただきました。
機械学習を用いたマイニングの結果、年齢が若い人や未成年の家族を持つ人などがテレワークの継続に対してポジティブな態度を取ることや、腰痛に悩まされテレワークの効率についてネガティブな態度をとる人がいることなどが明らかになりました。以下の記事に分析手法や成果を詳細を公開しています。
5.データマイニングを進める6つの手順
データマイニングは分析手法を適用することだけではなく、その前後の様々な工程を含めたプロセスのことを指します。
本記事では代表的なプロセスについて6つの手順に分け簡単に解説します。なおこれらの手順は一方通行的なものでなく、常に行き来するものであり、何度も試行錯誤することがデータマイニングのそのものです。
なお本記事で紹介するプロセスについては以下の記事でより深掘って解説しています。
➀目的設定
目的設定は、6つの手順の中で最も大事なパートと言っても過言ではありません。
データマイニングの最たる目的は、「膨大なデータの中から有用な知見を発見し、データに裏付けられた意思決定を行うこと」です。このパートでは目的、すなわち「何を見つけることが最も有用か」ということを定めます。そのため、この目的設定がぶれると「何のためにデータ分析してるんだっけ」となったり、何か新しいこと発見しても「で、それって何に使えるの?」となることが少なくありません。
➁データ収集
目的が定まったら、目的に適したデータを触れる状態にします。自社のデータベースにデータがあるならば、それにアクセスできるようにしたり、手元にデータがなくwebページ等の外部データが必要な場合にはそれらを取ってきます。データが取れそうにないなら、目的を見直すこともしばしばあります。
➂前処理
石油は精製しないとガソリンとして使えないように、収集したデータもそのままでは分析できないことが多いです。データの中には欠損箇所や表記ゆれなど様々なノイズが混じっているので、それらノイズを除去する作業が必要です。
この前処理を怠ると、そもそも分析にかけるデータが誤っているのであまり有益な情報を得られないことが多いです。よくGarbage in – Garbage out(GIGO、ゴミを入れれがゴミが出る)なんて言われたりもします。
データの前処理については以下の記事で詳説しています。具体的な前処理を知りたい方は参考にしてください。
④分析
ここまで来てようやく分析を行うことができます。分析を実行し分析結果を得るには、データ・分析手法・ツールの3つが必要です。データをツールに入れ、分析手法を設定し、結果を算出します。
⑤結果の解釈、レポーティング
分析手法を適用した後は、その結果を我々人間が解釈できるように処理をする必要があります。分析結果の解釈をし、他の人に伝えるためにグラフ等を使用して結果を直感的に伝わるようレポートを構成します。
また、この段階で効果的なレポーティングを行うにあたって、データビジュアライゼーションの技術は大変重要です。以下の記事にデータビジュアライゼーションの概説をしていますので、是非参考にしてみてください。
⑥意思決定
分析の結果をもとに、「何をするか」を決定します。
分析の結果、在庫のバランスを調整する必要があるとわかれば「在庫バランスを調整する施策を打つ」という意思決定に繋がりますし、特に問題が内容なら「何もしない」という意思決定をすることも考えられます。重要なのは、「意思決定に繋がって初めてデータマイニングの価値が出る」ということです。最終的な意思決定を想像しながらデータマイニングを行うとスムーズ行くことが多いです。
6.データマイニングを行う前に知っておきたい3つの注意点
多種多様なデータにアクセスできる現代において、データマイニングは有用な知見を見つけるのに効果的な手段です。しかし上手にデータマイニングを進めるためには、注意点もあります。本書では特に重要な3点について説明します。
6-1.価値ある情報の発見は容易ではない
「データマイニング」と聞くと、全く新しい知識を発見できる銀の弾丸のようなイメージをしがちですが、シンプルなものではありません。筋の良い目的や仮説を立て、きちんと整備されたデータを用意し、適切な手法を選択するなど、データマイニングを行うにも多くの作業が必要です。さらに、そうした分析をするデータに有用な知見が必ずしも眠っているとは限りません。
データマイニングを行う際には分析以外の工程にかかるコストや、発見が出ない可能性があるリスクを念頭に置いてからスタートする良いでしょう。そうすることでスケジュール遅れやプロジェクトが頓挫するリスクを減らすことができます。
6-2.実用とコストのバランスを取ることが大事
データマイニングでは、精度を高めようとすれば無限に続けられるものです。しかし、現実は時間や予算に限りがあり、永遠に分析をするわけにもいきません。
例え完璧な精度でなくとも、実用性が認められればデータマイニングの目的は果たされます。データマイニングをやっていると精度を高めることに気を取られがちですが、データマイニングの目的に対する実用性や時間、コストを考えて落としどころをに目を向けることは肝要です。
6-3.現場へのヒアリングを行う
現場の話を聞かないと、現場の中では暗黙知として認識されていることなのにも関わらず、「データを分析をしたらこんな新しい発見があった!」と過剰な評価をしてしまうことがあります。
データによって暗黙知が形式知になるのはデータマイニングによる恩恵ですが、1からデータを眺め発見→検証とするよりも、現場の話を聞いてすぐに検証したほうが圧倒的に効率が良いことが多いことも事実です。さらに、現場の人に出てこなかった事象をデータから発見した時は、「未知の知識」とされ、有益な情報になることが多いです。
分析を行っている時だけでなく、分析する前からも現場へのヒアリングを通じ、「どのような知見を見つけるべきか」という”あたり”がよりよいデータマイニングを行うコツです。
7.データマイニングの学習を始めるのに役立つ参考資料
データマイニングはデータ分析の類型の一つなので、データマイニングを始めるにはデータ分析の基本を押さえておくとその後の学習がスムーズになるでしょう。
データ分析の基礎の基礎を知るうえでは以下の書籍がオススメです。
この本はデータ分析の利点や実務上の分析プロセス、それらの事例などを網羅的にかつわかりやすくまとまっています。学習の一歩としてデータ解析の全体像を把握できるため、入門書としても最適だと感じます。
また、以下の弊社の記事でもデータ分析の基本についてまとめています。上記の書籍と併せて読むことでより理解が深まるはずです。
最後に、データ分析における代表的な手法をまとめたのが以下の記事になります。分析手法のイメージを予め知っておくことで、データマイニングによって何が発見できるか、という点についてよりイメージが明確になるので、ぜひご一読ください。
8.まとめ
本稿ではデータマイニングの基本的な意味やその手順、データマイニングの注意点について解説しました。
大量のデータを扱う環境や手法が発展した現代において、データから知見を得る技術はきわめて強力な武器になります。
しかし、データがあるだけでは何の知見も得られません。マイニングのプロセスをしっかり押さえ、試行回数を重ね、真摯にデータと向きあって初めてデータから深い洞察が得られるものです。
データの管理・活用をご検討の場合はぜひ一度データビズラボへお問い合わせください。
データビズラボでは状況やニーズに合わせた様々なサポートをご提供いたします。
コメント