データ分析基盤とは、膨大なデータを蓄積→加工→分析するのを一貫して出来るようにする技術的な基盤のことを指します。データ分析基盤の構築はデータを組織で効率的に活用していくには重要です。
データ分析基盤とは何か大さっぱに理解しているが、「実際の現場ではどうやって構築していけばイメージがつかない」「実際にデータ分析基盤を構築したらその後どのように使われるかわからない」と悩むことがあるかと思います。
本記事ではデータ分析基盤の構築にあたり豊富な実績を有する当社が、データを利活用していく仕組みの基盤である「データ分析基盤」をテーマに、以下をご紹介していきます。
・そもそもデータ分析基盤とは何か
・なぜデータ分析基盤がデータ利活用にとって重要なのか
・データ分析基盤の構築には何をするのか
記事を通じて、データ分析基盤の構造を理解し、自分の組織で実際に構築するにあたり何をするべきか具体的なイメージが湧くはずです。
目次
1 データ分析基盤を構成する4つの要素
「データ分析基盤」は、組織が抱える膨大なデータをビジネスで利活用する為には必要不可欠な技術的基盤です。ここではこれから構築していくデータ分析基盤自体を4つの要素に分けて解説します。
そしてその4要素とは以下の通りです。
・データを集める
・データを貯める
・データを分析用に加工する
・データを可視化して分析する
また、図式化したものが以下になります。これら4要素の集合体がデータ分析基盤です。
1つずつ詳しく見ていきましょう。
1-1 データを集める
1つ目の要素は、様々な情報源からデータを収集することです。
まず、データ分析に用いる素材集めをしていきます。Webサイト・サービス・アプリなどに入力されたデータを取集する仕組みを作る必要がありますし、自動で全てのデータは蓄積されません。そもそも素材となるデータがないことにはデータ分析は出来ないので素材が必要です。
例えば、以下のようなことが挙げられます。
・Webサイトに関する情報のうちアクセスログを取り出す
また、使用するツール例としては以下のようなものが挙げられます。
1-2 データを貯める
2つ目の要素は、集めてきた大量のデータを大容量の保管庫「データレイク」に蓄積することです。
使用するツール例としては以下のようなものが挙げられます。
1-3 データを分析用に加工する
3つ目は、データレイクに蓄積された莫大のデータのうち、分析に使用するデータのみを取り出し最適な形へ加工していくことです。
ここでは、データレイクから分析用に移してきた素材データを使う人・用途・目的に応じて、集計・統合するなどの加工をします。こうした加工したものを「データマート」と呼びます。そして、分析用に集めてきたデータやデータマートは「データウェアハウス(略してDWH)」保管します。
使用するツール例としては以下のようなものが挙げられます。
1-4 データを可視化して分析する
4つ目は、作成したデータマートを可視化したレポートを元に意思決定することです。
データマートは加工済みのものですが、まだ数値の羅列に過ぎず我々が意思決定する材料としては使いにくい状態です。なので、グラフやチャートを用いてデータを人が見て理解出来るようにしていきます。
そしてツールとしては「BIツール」「統計ツール」などを用います。使用するツール例としては以下のようなものが挙げられます。
なお、BIツールについては詳細比較をしている記事があるのでこちらをご覧下さい。
2 データ分析基盤を構築すべき2つの理由
データ分析基盤の構築は、データ利活用を進めるのに必要不可欠です。
多くの特徴があるデータ分析基盤の構築が重要である理由は、主に2つが挙げられると考えています。データ分析基盤の構築により以下の2つのことが実現し、データを効果的にビジネスで活用することが出来ます。
- 様々な要素(システム)を組み合わせて、一貫したデータ分析が出来る
- データを一元管理、データ品質を担保できる
それぞれ詳しく解説していきます。
2-1 一貫したシステム連携によるスムーズなデータ分析が出来る
データ分析基盤はデータを集めるところから分析するまで一貫して行うので、一定の作業を自動化し素早くデータ分析することが可能です。
データを「集める」「貯める」「分析用に加工する」「可視化して分析する」の4ステップを一つの環境下で連携させて実行するので、「データを分析して活用しよう!」となってからすぐに作業に入ることができます。「複雑な集計を毎回行わなければならない」「毎回毎回データ抽出の条件が複雑で工数がかかる」といった事態を避けることが可能です。
また、このシステム連携は本来では得られなかった分析結果を生み出すことも可能です。データ分析基盤により、組織で横断したデータ分析が可能になるので複合的な観点で分析を進めることができます。
例えば、以下のようなことが挙げられます。
・店舗の売上データ(リアルデータ)×Webサイトのデータ(デジタルデータ)
・関東事業部のデータ×関西事業部のデータ
2-2 データを安全に一元管理しデータの質を担保できる
データ分析基盤では、データを一元管理しデータの質を向上させる取り組みが可能となります。
前述で、あらゆる形式のデータを貯める「データレイク」、分析用に加工したデータを貯める「データウェアハウス」をご紹介しました。こうした技術的環境無しにデータが散在したままで管理していると、以下のような「データを準備するまでに時間がかかり分析・活用に直ぐに取り組めない」「そもそも使用するデータが誤りである可能性が高まる」状態に陥ります。
・似たようなデータが部署ごとに様々な場所に保存され、どれが最新のものかよくわからない
・データが部署ごとでバラバラで管理され表記が異なるので、紐づける際に欠損が生じている可能性がある
しかし、データ分析基盤上でデータを一元管理し以下のようなことを行うことで質の良いデータを提供し続けることが可能になります。
- 表記が揺れが項目によってあるので、そうしたデータの項目を修正する処理を自動化し表記を統一する
- 部署によって異なる場所データを保管していたが、データ分析基盤下に置くことでデータの漏れをなくす
3 データ分析基盤構築に必要な5ステップ
データ分析基盤を自社組織で構築し活用していくのは一朝一夕で出来るものではありません。また、構築にあたっては様々なツールやソリューションを扱うこととなります。ですので、自社がデータ分析基盤の構築経験がない場合は外部の専門会社に構築の初期フェーズから共に進めていくことを推奨します。
ここでは、データ分析基盤を構築し実際に活用するまでの流れをざっくり5段階に分けて解説します。
細かくタスク化すると数多くあるので、ここではざっくりとした全体感をつかんでいただければと思います。
3-1 推進のためのプランニング
まず最初は、データ分析基盤構築のために自社組織でプランニングが必要となります。2章でも解説した通り、データ分析基盤とは様々なツールの集合体であり、構築はボタン一つでは終わりません。
自社組織の目的と要望に沿って、データ分析基盤は構築していく必要があるので初期は構築にあたっての体制作りが必要となります。以下が代表例として挙げられます。
推進チームの構築
データ分析基盤構築の舵取りをするプロダクトオーナー、データの生成・蓄積・分析の現場担当者、データを利用するユーザーを巻き込み、データ分析基盤構築推進チームを結成します。
実際にデータ分析基盤を構築する人や利用する人はもちろんのこと、経営層の人員を巻き込むことが理想です。理由としては、データ分析基盤の構築は現場主導のみだと一過性で終わってしまう恐れもあるので全社的に進められるようなバックアップがあると、展開が楽になります。
データ分析基盤構築のスケジュール・担当者アサイン
WBSなどで、データ分析基盤構築のタスクの棚卸し・納期の設定・担当者のアサインを行います。データ分析基盤の構築は、一過性の取り組みではありませんので何を誰がいつまでに進めるのか決めることが重要となります。
WBSの詳しい内容についてはこちらが参考になると思います。
また、試しにWBSを作成したいという際はスプレッドシートでアドオンを使用して簡単に作成できるのでおすすめです。こちらの記事が参考になるかと思います。
3-2 利用用途の決定
プロジェクト体制が確立されたら、次はデータ分析基盤の要件定義を行い「何の為にデータ分析基盤を使うのか」の利用用途を決めていきます。
利用用途を決める理由としては、データ分析基盤は使われなければただのコストの無駄遣いとなってしまうからです。「実際にデータ分析基盤を使ってデータを活用してもらうこと」を初めから想定しておくことが重要です。
利用用途を決める上では、まず現在社内でデータ活用に困っているユースケースを参考にすることが良いでしょう。
例えば以下の通りです。
- データ分析をする際に、毎回表記揺れを直すのに時間がかなりかかっている。表記揺れを直す処理は、同じ作業だが人がやると時間がかかるのでデータ分析基盤の環境下で自動化してしまいたい。
- 定時的に見る指標の中に集計ルールが複雑で出来る人が限られるものが存在する。なので、集計が複雑だったり抽出の条件が多いデータは自動化する処理を作りたい。
「データ分析基盤を構築したが結局使われずに終わった」「データ分析基盤をわざわざ構築しなくても、他の方法で代替可能なことが後になって判明した」といったことを避ける為にも、データ分析基盤の用途を事前に明確に設定することは重要です。
3-3 データ分析基盤の設計
利用用途が決まったら、次はデータ分析基盤の技術的な設計を行います。要望を満たせるように、以下に代表されることを踏まえてデータ分析基盤の設計を行います。
- どのデータを、データ分析基盤上では使用したいか
- 使用したいデータはどのように収集するか
- 収集したデータはどこに保管するか
- 保管されたデータはどのように分析し活用するか
以上のことを決めていくのと同時に、それぞれの処理はどのツールを導入し使っていくのかも決めていく必要があります。
3-4 データ分析基盤の構築
データ分析基盤の設計が終われば、次は実際に構築していきます。データの収集、蓄積、分析、活用までを可能にするため、以下に代表されるようなことを行います。
- 既に自社内に蓄積されている構造化・非構造化データをデータレイクに移行する
- 利用スコープに含まれるデータがデータレイクに蓄積されるようにデータ収集のワークフローの実装
- 汎用的な処理を施したデータをDWHに配置する
- 分析用に加工したデータマートの作成
- データの可視化ツールの導入
上記を実装するにあたり、ツールの選定も行います。ツールは用途や技術環境などによって適するものが異なるので、いくつかPoCを行い比較検討をすることを推奨します。
3-5 運用
データ分析基盤の構築を終えたら、運用を行います。データ分析基盤は一度構築したら終わりというわけではありません。
新たな利用用途がありますし、利用拡大に伴い機能改善をしなければならないことも有り得ます。また、実際にデータ分析基盤を使ってもらえるように社内普及の活動も行う必要もあります。
この様に、データ分析基盤を使い続けてもらえるように以下に代表されるようなことを行い、運用していかなければなりません。
- データ分析基盤が要望を満たす働きをしているかの効果測定を行う
- データ分析基盤の利用状況をモニタリングする
- データ分析基盤の設計を定期的に見直す
- 社内でコアユーザーを見つけデータ分析基盤普及に協力してもらう
なお、データ分析基盤の運用については以下の記事が参考になると思うので是非ご活用ください。
4 まとめ
今回はデータ分析基盤を簡単にご紹介してきました。まず前提として大切な観点が、データ分析基盤とは以下の4要素の集合体であることです。
・データを集める
・データを貯める
・データを分析用に加工する
・データを可視化して分析する
データ分析基盤は組織のデータ利活用を効率的に進める重要であり、構築には利用用途を踏まえて綿密に構築していくことが大切です。しかし、自社に構築の経験がない場合に自力で0から構築するのは困難です。なので、データ分析基盤を構築を進めていく最初の段階からコンサルティング会社など、ノウハウのある専門組織に頼ることを推奨します。
データビズラボでは効率的なデータ利活用のためのデータ分析基盤の構築のサポートを行っております。
状況やニーズに合わせたサービスをご提供しておりますのでぜひお問い合わせください。
以下は、当社が手がけるクラウドデータ分析基盤の詳細とよくある質問に答えておりますコンテンツです。こちらもぜひご覧ください。