
今、あなたの会社では以下のようなことが起きていませんか?
部門ごと独立したシステムが導入され、運用されている
- Excel、データベース、クラウドなどに社内のデータが散在している
- 必要なデータがどこにあり、誰が管理しているか分からず、すぐに入手できない
- データを分析することではなく、集めることが仕事になってしまっている
- システムでの入力間違いや、辻褄合わせの改ざんにより、データの品質が悪い
これらは、私がデータ分析コンサルティングを行う中で、実際に肌で感じてきたことです。
しかし、どの会社においても、データ統合をすればこれらの問題を解消することができます。なぜなら、社内データを統合すれば、以下のような状態を実現できるからです。
- 社内データが一元管理されている(全社横断のデータ管理)
- 社内データが一つの場所に集約されている(散在していない)
- データの所在がすぐに分かる
- いつ、誰でも、必要なデータを取得(アクセス)できる
- データ収集、データ加工の工数がなくなる
- データの品質が担保されており、正しいデータで分析・意思決定ができる
このように、データ統合で得られる価値は大きいです。しかし、データ統合は簡単にできるものではありません。なぜなら、データを統合するには社内で活用し得る全データに対し、以下の手順を行う必要があるからです。
これらの手順に時間がかかることは確かです。そこで本記事では、「データ統合は本当に行う必要があるのか」をテーマに、
・データ統合を行う前、行った後で業務にどのような変化がおきるのか
・費用対効果は高いのか
・データ統合の具体的な進め方(図付きで徹底解説)
をご紹介していきます。本記事を読み終えていただければ、データ統合の価値と、自身の組織で実際に何を行っていけば良いのか具体的にイメージが湧くはずです。
目次
1. データ統合前後での世界の違い
データを統合することで、現在の作業がどのように変化するか図を用いて紹介します。また、費用対効果についてもざっくりと解説します。
データ統合前の作業フロー
データ統合前は、データ取得までのプロセスが多く、すぐに分析を始めることができないことがほとんどです。具体的には以下のような煩雑な手順を行っている印象です。
- レポート作成者が、独立したシステム(データベース)から売上データをダウンロード
- レポート作成者が、データ管理者にデータ取得依頼メールを出す
- データ管理者が、最新データを取得し、レポート作成者へデータを送付する
- レポート作成者が、集めたデータを分析可能な形に加工する(Excelマクロ駆使)
- レポート作成者が、加工したデータを使ってレポートを作成する
データ統合後の作業フロー
データ統合後は、データ取得までの煩雑なプロセスがなくなり、分析にすぐ着手できます。具体的には以下のようなシンプルな手順になります。
- レポート作成者が、統合データベースから分析に必要なデータを探す
- レポート作成者が、1のデータを使ってレポートを作成する
データ統合による費用対効果は高い
実際にデータ統合をしたいと思っても、「コストがかかりそうで手をつけられない」と思われてる方もいらっしゃると思います。確かに実現までの人月コストは多くかかってしまうでしょう。しかし、統合したデータ基盤を上手に活用していけばROIは高まります。
仮に、データ分析者やレポート作成者のデータ収集・加工にかける工数を1人日とすると、毎月1回作業する人が20〜30人いるだけで1人月です。しかし、データを統合すれば、この1人月は削減できるため、データ統合基盤構築に6人月かかったとしても数ヶ月で元が取れるでしょう。
これが、大きな規模であればあるほどスケールしていき、全体としての生産性がどんどん高まっていくものです。
それでは、以降、具体的なデータ統合の手順を解説していきます。
2. データを評価する
データを統合するために行う一番最初のステップは、データを評価することです。データを評価することで、現状データの問題・課題を洗い出すことができます。
統合されたデータは全社員に使われる可能性があります。そのデータに間違いがあれば、全社員の示唆に誤りが生じます。そうならないためにもデータを適切に評価し、現状データの問題・課題(修正箇所)を徹底的に洗い出しておきましょう。
具体的には、以下2つの観点でデータを評価していきます。
これらの評価を行うことで、統合するデータの修正箇所が明確化できるからです。
- データの構造
- データの内容
以降、それぞれの評価について具体的に解説していきます。
データの構造を評価する
社内のデータが、構造化されているデータか否かを評価していきます。構造化されていないデータがある場合は、統合前に、構造化されたデータへ変換することが望ましいです。
構造化データと非構造化データの違いは以下の通りです。
構造化データは、テーブル形式で整理されているデータです。注文日、製品などといったデータの項目(見出し行)が定義されているため、データの加工や、分析の切り口として活用しやすい形になっています。
非構造化データは、テーブル形式で整理されていないデータです。数字や文字で表すことのできないデータ(画像/動画)のため、データの加工や、分析の切り口としては活用しづらい形になっています。
非構造化データをそのまま読み込んで分析することもありますが、構造化されたデータのほうが汎用的に活用できます。そのため、統合するデータの構造は、以下のようにしておきましょう。
データの内容を評価する
次にデータの内容を評価していきます。データの内容は、以下4つの観点で評価していきます。
- 想定しているデータ型で定義されているか
- 見出し行、データ行の関係性は適切か
- 複数データ間の粒度に違いがないか
- 複数データ間の表記に揺れがないか
これらを行う理由は、統合するデータ間の整合性を取るためです。統合されたデータ間の整合性が取れていないと、参照するデータによってインサイトに差異がでます。そうならないためにも、データの内容は入念に評価しましょう。

想定したデータ型で定義されているか評価する
各データ列が、自身が想定しているデータ型(日付型データ、文字列型データ、数値型データ)で定義されているか評価します。以下は、想定しているデータ型で定義されています。
例えば、[利益]を数値型でなく文字列型にしてしまっていた場合は、「211 + 78 = 21178」という文字列の結合が行われてしまいます。このようなミスを起こさないためにも、自身の想定しているデータ型と差異がないか評価しましょう。
見出し行、データ行の関係性は適切か評価する
各見出しの名称と、その見出しに紐づく実データの関係性が正しいかを評価していきます。以下は、製品名という見出し名称なのに、カテゴリ名の家電が入っている状態です。
実際、このようなことは、よくあります。隣の見出し名称と何かの拍子に逆になっていたから、などが主な理由です。このように、勘違いしたまま分析・レポート作成がされないよう、見出し行とデータ行の関係性は評価しましょう。
複数データ間の粒度に違いがないか評価する
複数データ間で粒度の違いがないか評価します。同じ「地域」といっても、一つのデータには北海道、青森などの都道府県レベル、もう一方のデータには中国、中部、などの地域レベルのデータが入っていたりします。これは、データの粒度が違う状態です。
以下のデータは、「地域」データが同じ粒度で入っていることが確認できます。(※表記揺れについては後ほど触れます)
例えば以下は、一方は日ベースで、もう一方は月ベースの売上が入っている粒度が異なるデータです。このデータを一つにまとめてデータ分析を行ってしまうと、下期のデータだけ上期の数倍以上の値となって表示されます。このように、粒度が異なるデータで分析し、誤ったインサイトを得ないよう複数データ間の粒度は評価しましょう。
複数データ間の表記に揺れがないか評価する
複数データ間で表記揺れがないかを評価します。表記揺れは、中部地方・中部という同じデータの意味を持つにも関わらず、違った表記がされていることを指します。以下の地域データは、まさに表記揺れがある状態です。このような表記揺れがあると、異なるデータとして扱われるため集計結果に影響が出ます。そのため、データ間に表記揺れがないか評価しましょう。
3. データを整形する
2で行った評価に合わせて、最適な整形をするステップです。これらの整形を行うことで、データの品質/精度が高まり、統合する準備が整います。具体的な手順は以下を行います。
- 正しいデータに補正する
- 不要なデータを削除する
- 複数データ間の粒度を揃える
- 複数データ間の表記を揃える
以降、それぞれの整形について具体的に解説していきます。
正しいデータに補正する
見出し名称の補正
見出し名称と実データの関係性を補正していきます。
入力ミスの補正
入力ミスを補正していきます。
不要なデータを削除する
データ量はパフォーマンスに大きな影響を与えます。そのため、データ分析に使わなそうな(使ってもインサイトが得られない)データは削除しましょう。
複数データ間の粒度を揃える
データの粒度を揃えていきます。
以下は、一方は日ベースで、もう一方は月ベースの売上が入っている粒度が異なるデータです。分析という観点から考えると、より詳細に分析ができる「粒度が細かい」データに揃えるべきですが、今回は、下期売上データの年月日データがないため、「粒度の粗い」年月データに揃えます。粒度を揃えた後は、売上データを可視化してみました。上期、下期での売上に明らかな差もなく、これで正しい分析ができるようになりました。
複数データ間の表記を揃える
データの表記を揃えていきます。
一方は地方がついているもの、もう一方は地方がついていないデータです。今回は、見出し名称に「地域」とあれば判断できることから、地方がついていないデータに揃えました。
4. データを集約する
いよいよ最後のステップです。Excel、データベース、クラウドなど様々な場所に散在するデータを一箇所に集約していきます。
集約にあたり重要となるポイントが2点ありますので、以降説明していきます。
データを集約するプラットフォームを選定する
集約先のプラットフォーム選定を行いましょう。統合するデータを評価し、いくら品質を上げても、集める場所がなければデータを統合できません。そのため、どこにデータを集約していくかを決めます。
代表的なプラットフォームとしては以下があります。
- GCP(Google Cloud Platform)
- AWS(Amazon Web Service)
- Microsoft Azure
しかし、これら代表的なプラットフォームを挙げられても、何が良くて、どう選んで良いか分からない方が多いと思います。そのような方に向け、データプラットフォームの基礎知識から、導入時のアドバイスまでがまとまっているこちらの記事をご紹介させていただきます。
プラットフォームが決まった後は、散在しているデータを、以下のように集約していきます。集約(インポート)のやり方は、プラットフォームの仕様に合わせて行ってください。
集約データを辞書化する
集約したデータは辞書化(一般的にデータカタログと呼ばれる)しましょう。データを統合しても、参照したいデータが何処にあるのか分からなければ、すぐに分析に着手することができません。
データカタログ機能はプラットフォームのサービスの一部として提供される場合が多いため、選定したプラットフォームのデータカタログ機能を有効に活用しましょう。
データカタログを構成する要素は統合したデータのメタデータになります。メタデータとは実データの付帯情報のことで、具体的には以下のようなものを指します。
- データの名称 (家電売上)
- データの説明 (何年度の家電製品売上データです)
- データ形式 (Excel)
- データを作成した組織 (営業部門)
- データ作成者 (佐藤 太郎)
- データ作成者の連絡先 (xxx-xxxx-xxxx)
- データ作成日 (xxxx年xx月xx日)
売上データにこれらのメタデータが付帯されていれば、売上データを参照したい誰かが “売上” や “家電売上” 等と検索するだけで、上記データがヒットし、簡単に参照することができます。そのため、統合後の運用も考えて、統合するデータにはメタデータを付与しておきましょう。
5. まとめ
今現在も、あなたの企業のデータは増え続けています。しかし、色々なシステムが乱立(サイロ化)していては、溜まっていくデータを有効活用できません。
今回はその現状を打破するためのデータ統合のやり方を3つのステップでお伝えしました。
DX(デジタルトランスフォーメーション)の第一歩もデータ分析環境の整備から始まります。是非、この手順をご活用いただいてデータ統合基盤を構築し、自社に眠るまだ価値を発揮できていないデータの価値を高めてください。
データのことなら、高い技術力とビジネス理解を融合させる私たちにご相談ください。
当社では、データ分析/視覚化/データ基盤コンサルティング・PoC支援に加え、ビジュアルアナリティクス、ダッシュボードレビュー研修、役員・管理職向け研修などのトレーニングを提供しています。組織に根付くデータ活用戦略立案の伴走をしています。
コメント