データプラットフォームとは膨大なデータを蓄積→加工→分析するのを一貫して出来るようにするデータ分析の基盤のことを指します。
データプラットフォームをざっくりと図式化すると次の画像のようになります。
似たような構成図を様々な場面で目にする事が多いですが、本記事では個別具体的に分けていきます。
データを利活用していく仕組みの基盤である「データプラットフォーム」をテーマに、
・そもそもデータプラットフォームとは何か
・データプラットフォームで何が出来るのか
・具体例でみるデータプラットフォーム
・データプラットフォーム導入にあたって
をご紹介していきます。記事を通じて、データプラットフォームの構造を理解し、自分の組織で実際に導入するにあたり何をするべきか具体的なイメージが湧くはずです。
目次
1 データプラットフォームを構成する4つのステップ
「データプラットフォーム」は、組織が抱える膨大なデータを、有効に活用していくための基盤です。
「データプラットフォーム」の明確な定義は無く、時と場合、活用する人によって異なってきます。
ですが「データプラットフォーム」を4つのステップに分けて捉えると、よりイメージが湧いてくるのでここでは4つのステップに分けて解説します。
そしてその4ステップとは、
・データを集める
・データを貯める
・データを分析用に加工する
・データを可視化して分析する
であり、図式化したものが以下になります。これら4ステップの集合体がデータプラットフォームです。
一つずつ詳しく見ていきましょう。
1-1 データを集める
様々な情報源からデータを収集しまとめるステップです。
まず、データ分析に用いる素材集めをしていきます。Webサイト・サービス・アプリなどに入力されたデータを取集する仕組みを作る必要がありますし、自動で全てのデータは蓄積されません。そもそも素材となるデータがないことにはデータ分析は出来ないので素材が必要です。
例えば、
などが挙げられます。
1-2 データを貯める
集めてきた大量のデータを大容量の保管庫に蓄積するステップです。
データと言うと、エクセルやCSVとなっている数値化されたデータを私たちは最初に想像しがちです。しかしそれらのデータ以外にも、音声・動画データ、ログデータなども含むあらゆる形式のデータが存在します。
このような、あらゆる形式のデータを保管する大容量の保管庫を「データレイク」と言います。
私はよくデータレイクのことを「とりあえず全てのデータを片っ端から放り込んでいるもの」と呼んでいます。
データレイクを構成するサービスも多々存在し、「オンプレミス型」と「クラウド型」の二つのタイプに分類することができます。
・オンプレミス型:自社が管理する設備内にデータレイクを作成するタイプ
・クラウド型:GoogleやAmazonなどが提供する環境にインターネットで接続して、データレイクを作成するタイプ(※この環境のことを仮想環境またはクラウド環境とも呼びます)
1-3 データを分析用に加工する
データレイクに蓄積された莫大のデータのうち、分析に使用するデータのみを取り出し最適な形へ加工していくステップです。
このステップは「データレイクからデータを移す」と「データマートを作成する」の二つの段階に分けられます。
分析用に加工する理由としては、蓄積されたデータをそのまま分析ツール(BIツール)に読み込ませても分析を実行できない多いためデータを綺麗にしてあげることが必要だからです。
・サイズが大きすぎて、分析ツールで処理することが困難
・表記が統一されておらず、汚いデータとなってしまっている
などが挙げられます。
データレイクからデータを取り出す
データレイクから分析に使うための素材データを取り出します。
データレイクにあるデータはそのままの形式で貯めた状態のものに過ぎませんし、中には分析には使用しないデータも含まれています。
例えば、
・分析に必要な数値データを取り出し、画像データは使用しないのでデータレイクに保管したままにする
・データレイクには5年分のデータが蓄積されているが、分析には3ヶ月分のデータで十分だからそれだけ取り出す
などのように、「分析に必要なデータ」だけをデータレイクから集めてきます。
そしてこうして集めてきたデータを保管するのが「データウェアハウス(略してDWH)」です。
データレイクとデータウェアハウスは一見混同しがちですが、次のような観点ではっきりと区別することができます
データマートを作成する
データレイクから分析用に移してきた素材データを使う人・用途・目的に応じて、集計・統合するなど加工します。データウェアハウスにあるデータは分析用に取り出してきたものです。しかし、サイズはまだ大きいのでそのまま使用することは現実的ではないので加工する必要があります。
こうした加工したものを「データマート」と呼びます。
例えば、
・関東地方の事業部用に、関東地方のみに絞ったデータマート
・毎分ごとの注文情報を含むオンライン取引データを、日別に集計したデータマート
・実績データと予算データを紐付けて、予実管理をする為のデータマート
などです。
1-4 データを可視化して分析する
作成したデータマートを可視化したレポートを作成するステップです。
データマートは加工済みのものですが、まだ数値の羅列に過ぎず我々が意思決定する材料としては使いにくい状態です。ですので、グラフやチャートを用いてデータを人が見て理解出来るようにしていきます。
そしてツールとしては「BIツール」を用います。
BIツールの機能
「BIツール」とは、様々なデータに集計や分析を行うことで意思決定に役立てる分析ツールのことを指します。そして以下の4つの大きな特徴があります。
・レポーティング機能:マウスのドラック&ドロップでデータ項目を選び、グラフの種類など出力したいレポートの形態を指示するシンプルな操作をすることで簡単にデータの可視化を行う
・多次元で分析する機能:レポートを使用する人が、その場で分析の切り口や数値の集計方法の変更すると高速で処理を返し分析を実行できること
・ダッシュボード機能:複数のレポートを一つの画面に表示し、各々を連動させながら深掘りしながら分析すること
操作画面としては、以下のような具合です。私が実際にTableauというBIツールを使用して作成したダッシュボードです。4つのレポートを一つの画面に纏め、気になる項目を選択すると他のレポートも連動して指標が可視化される仕組みになっています。作成したダッシュボードはこちらです。
BIツールの種類
BIツールにも様々な種類のものがあります。昨今多くのBIがありますが、丁度BIツールについて詳細比較をしている記事があるのでこちらをご覧下さい。
2 データプラットフォームの3つの特徴
データプラットフォームは、データを「集める」「貯める」「分析用に加工する」「可視化する」する4ステップを一貫して行う環境です。その環境があると、どんなことが実現できるのでしょうか。
多くの特徴がありますが、私は主に次の3つが挙げられると考えています。
2-1 一貫したシステム連携によるスムーズなデータ分析
データプラットフォームはデータを集めるところから分析するまで一貫して行うので、素早くデータ分析することが可能です。
データを「集める」「貯める」「分析用に加工する」「可視化して分析する」の4ステップを一つの環境下で連携させて実行するので、「データを分析して活用しよう!」となってからすぐに作業に入ることができます。そもそもデータがどこにあるのかわからないので、用意するのに膨大な時間がかかってしまう、といった事態を避けることが可能です。
また、このシステム連携は本来では得られなかった分析結果を生み出すことも可能です。
データプラットフォームにより、組織で横断したデータ分析が可能になるので複合的な観点で分析を進めることができます。
例えば、
・店舗の売上データ(リアルデータ)×Webサイトのデータ(デジタルデータ)
・関東事業部のデータ×関西事業部のデータ
などです。
2-2 データを安全に一元管理
データプラットフォームでは、データを一元管理し安全に扱うことが可能です。
前述で、あらゆる形式のデータを貯める「データレイク」・分析用に加工したデータを貯める「データウェアハウス」をご紹介しました。これらの環境下で、データを一元管理するので、安全性が向上します。
今まではデータが散在したままで管理していたので、
・似たようなデータが様々な場所に保存され、どれが最新のものかよくわからない
・データがバラバラで管理されていたので、その都度データを送信し自身で把握できなくなった
という状態に陥りがちでしたが、一元管理することにより回避することができます。
2-3 導入規模のカスタマイズ
データプラットフォームは、決められた一つの製品だと思いがちですがあくまで様々な機能を持つ製品の集合体です。
ですので、導入する際に規模を自社の都合に合わせて決めることが可能です。
・全社で導入するほどのコストもノウハウもない
・初期段階だから、IT部門で一旦テストしたい
といった場合に、小規模で導入をスタートすることが出来るんできます。
後ほど登場しますが、例えばAmazon社が提供するデータプラットフォームサービス「Amazon Web Service」のデータレイクである「Amazon S3」は使用した量だけ料金が発生する仕組みとなっています。
複雑な話になってしまうので、実際の金額の話はここでは割愛しますが自分たちの都合に合わせて料金が変化するのは、莫大な固定費が掛かることを防ぐことができる為良心的な仕組みであると思います。
なお、Amazon S3の具体的な金額を知りたい方はこちらを参考にしてみて下さい。
3 データプラットフォームを構築する2つの具体例
データプラットフォームはどのような構成で実際に構築されているのでしょうか。
ここでは、
・一つの会社が提供するデータプラットフォームを使用する例
・複数の会社が提供するツールを組み合わせて、データプラットフォームを構成する例
の二つに分けて具体例をご紹介します。
3-1 一つの会社が提供するデータプラットフォームを使用する例
Google・Amazon・Microsoftなどの大手IT企業は、データを「集める」「貯める」「分析用に加工する」「可視化して分析する」の全ステップが完結できるデータプラットフォーム提供しています。
Googleのデータプラットフォーム
Google社のデータプラットフォームのサービスは「Google Cloud Platform(略してGCP)」です。
GCPの製品は大量にあり、ここにあるのはごく一部です。
こちらがより多くの製品を紹介しているので、より詳しい内容を見たい方はどうぞ。
Amazonのデータプラットフォーム
Amazon社のデータプラットフォームのサービスは「Amazon Web Service(略してAWS)」です。
同じくAWSに関しても、ここにあるのはごく一部です。
こちらがより多くの製品を紹介しているので、より詳しい内容を見たい方はどうぞ。
Microsoftのデータプラットフォーム
Microsoft社のデータプラットフォームのサービスは「Microsoft Azure(略してAzure)」です。
Azureも、他に大量に製品を提供しています。
より詳しい内容はこちらがオススメです。
3-2 ツールを組み合わせて、データプラットフォームを構成する例
組織の規模が大きく、部門数が多いと分析の用途も千差万別になってくるので、複数の会社のツールを組み分けてデータプラットフォームを構成する場合もあります。
例えば、
・webマーケティング部門はリアルタイムなデータを分析できる仕組みが欲しい
・経営企画部門は重要指標のデータはセキュリティ的に安全な環境で分析できる仕組みが欲しい
というように組織が大きくなるにつれ、ニーズも増えていくのでデータプラットフォームを、独自でカスタマイズする必要が出てきます。GCP・AWS・Azureのみですと、実現がどうしても難しい場合が出てきてしまいます。
その例として、リクルート社のデータプラットフォームの構成が非常に分かりやすいので解説していきます。
こちらのスライドを、記事用に一部省略して作り変えています。
リクルート社のデータプラットフォームについて、例の如くデータを「集める」「貯める」「分析用に加工する」「可視化して分析する」の4ステップに分けて考察します。
データを集める
スライドによると、リクルート社のデータプラットフォームでは主に次の4つの種類のデータを取得しています。
・事業の業績データ
・Webクローリングなどの外部データ
・自社サイトのアクセスデータ
・アプリのログデータ
あくまでスライドで扱われているのはデータプラットフォームの一例に過ぎないと思いますが、これだけでも多様なデータを取り扱っていることが分かります。
データを貯める
データを貯めるデータレイクとしては、次の2種類のサービスを使用しています。
Amazon S3
Amazonのデータプラットフォームの1製品であるのが、「Amazon S3」です。
図からみるに、S3に一旦全てのデータを貯めこんでおりリクルート社の巨大なデータ倉庫となっていることが想像できます。
Google Cloud Strage
Googleのデータプラットフォームの1製品であるのが、「Google Cloud Strage」です。
Amazon S3だけでなく、Google Cloud Strageも使用している理由ですが、データを分析用に加工するステップでGoogleの他のサービスを利用するので連携強化のためだと考えられます。
データを分析用に加工する
分析用に加工したデータを貯めるデータウェアハウス(DWH)としては、次の4つの製品を用途に分けて使用しています。かなり高度な構成ですね。
Oracle Exadata
Oracle社が提供するDWHです。リクルート社の場合は、自社内に物理的な設備を用意して使用しています。
理由としては、売上に直結するデータが格納されており安全性を確保するために物理的に分けているとのことです。
Amazon Redshift
Amazon社が提供するDWHであり、主な分析環境です。
社内に一般開放しているので日々膨大な処理が行われ、大量のデータマートが作成されています。
Amazon Redshiftが一つだけですと、負荷が掛かりすぎるためバックアップ用としてAmazon Redshiftをもう一つ導入しています。
Google Big Query
Google社のDWHです。
こちらもAmazon Redshiftと同様、主な分析環境であると考えられます。
Web行動ログなどをアドホックで分析するといった用いられ方をしているとの事です。
有名なWeb分析ツールとしては「Google Analytics」がありますが、同様にGoogle社のサービスですのでGoogle Big Queryとの連携はスムーズに出来ると言えます。
Treasure Data
Treasure Data社のDWHです。
Treasure Dataの特徴の一つとして、連携できるサービスが多様である事が挙げられます。
多くのデジタル広告サービスからデータ収集ツール、アプリケーションと繋ぐコネクターが豊富なので様々な媒体からデータを収集して保存することが出来ます。リクルート社は動かしている事業がとてつもなく規模が大きく、様々な媒体からデータを収集しているはずなのでTreasure Dataも活用しているのだと考えられます。
連携できるサービスについては、こちらの公式ページに一覧が記載されています。
データを可視化して分析する
SPSS
IBM社の統計解析ツールです。
DWHに蓄積された大量のデータを統計処理していると考えられます。
Tableau
先ほどもご紹介しましたが、Tableau社のBIツールです。
Tableauはデータの可視化が得意なツールなので、データを誰でも見て分かりやすい形にしてレポートとして多くの社員に共有していると予想できます。
Salesforce
Salesforce社の顧客管理・営業管理ツールです。
DWHに蓄積されたデータを元に、営業の効率化などに活用していると考えられます
Python
最近多くエンジニアに使用されているプログラミング言語であり、機械学習の領域で活発に使用されています。データから、売上の予測や需要の予測などに使われているのかもしれません。
R
Pythonと同じく人気のあるプログラミング用語で、統計処理やデータ解析の領域で多く使われています。SPSSも統計処理が出来ますが、「Rの方が個人的には得意!」と言う人はRを使うのかもしれません。
以上リクルート社を例にとってご紹介しましたが、多種多様なツールを上手く組み合わせて使いこなしている事が分かります。組織が大きくなるとニーズもツールを使う人のスタイルも多種多様になることが予想できますが、リクルート社のデータプラットフォームはそれらに応える形で緻密に設計されていることが分かります。
4 データプラットフォーム導入には専門家の活用が不可欠
データプラットフォーム導入にあたり、導入のノウハウを持つコンサルティング会社と提携するのは不可避であり、上手く活用しなければなりません。何故なら、導入には専門的知見・技術が不可欠であるからです。
データプラットフォーム導入には複雑に要素が絡み合い、知識には幅の広さと深さが求められます。0から自社のみで推進するのは専門的知識やノウハウが無いケースもあり、困難である場合が多いです。
「自社にIT部門があるから自社だけで推進できる」と思いがちですが、データプラットフォーム導入には従来のツールの導入とは全く異なる設計の観点が必要です。
「データプラットフォームとはデータを蓄積→加工→分析するのを一貫して出来るようにする機能の集合体」です。
ですので、データプラットフォームを導入する際には、事前にそれら全ての工程の技術的知見を持った上で設計していく必要で自社のみで全ての領域を網羅するのは困難です。
一部のツールだけを使いこなす事ができれば十分だ、と思い自社のみで導入を進めてしまうと「データを蓄積し加工する仕組みは出来たが、分析する工程で相性が合わなくなってしまった」などのように後になって問題が発生してしまうケースも起こり得ます。
したがって、「集合体としてのデータプラットフォーム」を導入する技術的ノウハウを持つコンサルティング会社を選定した上で、活用していくのが重要です。
5 まとめ
今回はデータプラットフォームを簡単にご紹介してきました。
まず前提として大切な観点が、データプラットフォームとは
・データを集める
・データを貯める
・データを分析用に加工する
・データを可視化して分析する
の4ステップの集合体であることです。
そしてデータプラットフォーム導入の際には、専門的知見を持つコンサルティング会社に頼るのが不可欠であり、導入に関しては自社がイニシアチブを取っていく事が大切です。
弊社では、ビジネスにおけるデータ活用とデータプラットフォーム、いずれにも豊富な知見を持つコンサルタントによるデータプラットフォーム構築の支援を行っています。
データプラットフォーム構築を行う上で、データの活用方針を定めて運用する「データマネジメント」を行うことは必須の取り組みとなります。データマネジメントの策定支援のサービス内容を、弊社実績と共に紹介しております。
データのことなら、高い技術力とビジネス理解を融合させる私たちにご相談ください。
当社では、データ分析/視覚化/データ基盤コンサルティング・PoC支援に加え、ビジュアルアナリティクス、ダッシュボードレビュー研修、役員・管理職向け研修などのトレーニングを提供しています。組織に根付くデータ活用戦略立案の伴走をしています。