データレイクとは?データウェアハウスとの違いについて徹底解説

データレイクは安価で大容量のデータ分析基盤として注目されており、ビッグデータのストレージとしてよくデータウェアハウス(以下DWH)と比較されます。本記事では、データレイクのメリットや注意点について以下の観点からご紹介します。

  • 従来のデータベースとどう異なるのか?
  • 自社にはデータレイクとDWHのどちらが必要なのか?
  • データレイクやDWHによってどんな分析基盤が構築できるのか?

最後までお読みいただくことでデータ分析基盤への理解が深まり、どんな分析基盤が自社にとって最適か判断することができます。

データレイクやDWHの構築・運用に関して弊社のサービスにご関心がある場合は是非こちらをご覧ください。

クラウドデータ分析基盤/CDP/DMP構築支援


1.データを大量に蓄えるためのデータレイクとは

データレイクは、非構造化データや構造化データなど用途やデータソース関係なく全ての生データを保存できる場所です。DWHよりストレージが安価であるため、データの量やコストを気にせずに使うことができます。RDBとDWHの間でデータの受け渡し役となったり、生データに直接アクセスしたいデータサイエンティストやデータエンジニアの手助けをする役割を担っています。

本章ではデータレイクとよく混同されるデータベースやDWHと比較し、データレイクの特徴について解説します。

1-1.データレイクとデータベースとの違い

データベースは構造化されたデータの集合です。基本的にテーブル構造でデータを持つリレーショナルデータベース(RDB)とよばれるデータベースが主流で、最近では低コストで社内サーバーを必要としないクラウドでのデータベースサービスも数多く展開されています。

以下の3つがRDBが持つ特徴です。

  • データをハードウェアから独立させて格納する
  • データベース専用の言語を使用してデータにアクセスする
  • 行と列からなるテーブル構造に収める

データベースはデータ分析用に構築される場合もありますが、システム構築の際に情報を格納するための場所としても使われます。例えば銀行のATMからお金を引き出す場合、以下の処理にデータベースが携わっています。

  • 暗証番号を入力する→データベース上の値と照合する
  • 預金を引き出す→データベース上の残高から預金分差し引く

データレイクはこのようにシステムの一部として存在しているデータベースから抽出した構造化データと、IoTデバイスから集まるデータやセンサーから得られたデータなどの非構造化データ両方をまとめて入れておける巨大なデータ貯蔵庫です。イメージとしては以下のように捉えることができます。

データレイクとデータベースを5つの視点から比較すると、以下の表のようにまとめられます。

データレイク

データベース

格納されるデータ

  • 特に加工されていない生データ
  • 構造化データと非構造化データ
  • 特に加工されていない生データ
  • 基本的に構造化データ

データを使う目的

  • 収集・格納時点では決まっていなくても良い
  • システムの処理機能に役立てる

コスト

  • 廉価
  • オンプレミスであれば高額になる
  • 保守運用コストが高い

ユーザー

  • データサイエンティスト
  • システムエンジニア
  • データベースエンジニア

データの容量

  • 拡張性が高く、ビッグデータに対応できる
  • データを保存できる容量に限界がある
それぞれのツールが必要とされた背景

歴史的にはRDB(1980年代)→DWH(1990年代後半)→データレイク(2015年頃)の順に登場しました。

それぞれが登場し社会に広まった背景を簡単にまとめると以下のようになります。

  • RDB:従来のデータベースよりも汎用性が高く、データを操作しやすい構造だった
  • DWH:複数のデータベースを管理し、統合的なデータ管理・分析による企業戦略の策定のために登場した
  • データレイク:企業の保有するデータの量と種類が増え、非構造化データも含めて全てのデータを低コストで貯めておける場所が必要とされた

1-2.データレイクとDWHの違い

データレイクはDWHと比較することで直感的に理解しやすくなります。イメージとしては、データレイクが「何でも置いておくことができる倉庫」、DWHが「最終消費者に届けるために整備された物流センター」のように捉えるとわかりやすいです。

DWHはデータを使うユーザーの目線に立って使いやすいように構築されているため、整理・整頓の際にコストがかかってしまいます。一方でデータレイクはそうしたコストはかかりませんが、ひたすら詰め込む目的で作られているので、どこに何があるかわからなくなってしまうリスクも存在しています。

データレイクとDWHを5つの軸で比較したものを表にするとこのようにまとめることができます。

データレイク

データウェアハウス

格納されるデータ

  • 特に加工されていない生データ
  • 構造化データと非構造化データ
  • 加工、クレンジング済
  • 基本的に構造化データ

データを使う目的

  • 収集・格納時点では決まっていなくても良い
  • 明確に決まっている

コスト

  • 廉価
  • データレイクよりは廉価ではなく、構築に時間的コストを要する

ユーザー

  • データサイエンティスト
  • ビジネス担当者

注意点

  • どのデータがどこに保存されているかわからなくなる
  • コストがかかる
データをビジネスに役立てるDWH

DWHは経営上の視点からデータを活用し、戦略を考えるためのデータ分析基盤です。RDBが整備されていく中で、蓄えられたデータを統合してビジネスに役立てるために生まれました。

以下の4つの特徴があると1990年代にDWHの概念を提唱したビル・インモン氏が定義しています。

  1. サブジェクト指向(subject oriented):活用目的に沿って整理されている
  2. 統合化(integrated):複数のデータソースから活用目的ごとに統合する
  3. 恒常的(nonvolatile):必要な時に過去のデータを遡って分析できる
  4. 時系列(time variant):データが時系列に並んでいる

RDBの課題となっていたデータ容量の限界をなくし、時系列・目的ごとに整理することで分析しやすくなります。

データの流れを示したイメージ図がこちら▼になります。

データウェアハウスの主なプロダクト例としては、SnowflakeやTeradataがあります。Snowflakeの詳細や使い所に関しては以下の記事にも詳細を書いています。

【徹底解説】次世代データウェアハウス”snowflake”の特徴


2.データレイクの活用方法と注意点

具体的にデータレイクで実現できることと、データレイクを導入する上での注意点をまとめました。

2-1.データレイクが必要となる状況

データレイクは以下の状況で必要とされる/効力を発揮すると言えます。

  • 旧来のデータ分析基盤のコストが増大しており、新しい分析基盤を作ってコストを下げたい
  • 大量の非構造化データを保有しており、今後の活用を検討している
  • 社内にデータ分析専門の部署があり、予測モデルの構築やAIの活用のために生データを分析するニーズがある

データレイクの主なプロダクト例としては、Hadoop、Azure、Amazon S3があります。

参考までに、こちらはAmazon S3とTableauを使った当社の事例になります。ぜひご覧ください。

広告クリエイティブダッシュボード構築支援(AWS(Redshift/S3)&Tableau Extensions API)

参考:非構造化データの一つであるテキストデータを使った分析についての記事

2-2.データレイクでできること

データレイクでは以下の5つのニーズを満たすことができます。

  • AI・機械学習を導入したい
  • 非構造化データを活用したい
  • データサイエンティストが探索的に分析できる環境が欲しい
  • 低コストで分析基盤を作りたい
  • 最新のデータを素早く分析したい

AI・機械学習を導入したい/非構造化データを活用したい

機械学習やAIを導入する際には、どんな分析手法を採用するかによってデータの前処理方法が変わるため、データサイエンティストが生データに直接アクセスできるほうが効率的です。また、データレイクにはテキストデータやセンサーデータ、画像データといった非構造化データもそのまま格納することができます。

それらのデータを用いて機械学習を行い、例えば以下のことを実現することができます。

  • 大量の画像データと熱センサーデータを用いて、高精度な異常検知システムを製造ライン上に構築する
  • モバイル機器やセンサー、カメラから送られてくる情報をAIに学習させ、IoTによる顧客利便性向上に役立てる
  • アンケートの回答結果を大量に集計し、テキストマイニングによってインサイトを得る

データサイエンティストが探索的に分析できる環境が欲しい/最新のデータを素早く分析したい

DWHには、予め利用目的が定められたデータのみが集約されるため、どのように役立ててよいかわからないデータを探索して利用可能性を探る場合には、全てのデータが存在しているデータレイクを利用します。

また、DWHにデータを移すためには前処理をするタイムラグが生じるため、今すぐに新鮮なデータにアクセスしたい場合にはデータレイクの方が向いています。

低コスト/低リスクで分析基盤を作りたい

データレイクを導入することで、データベースの負担を軽減し、DWHのストレージコストを下げることができます。

データベースでビッグデータを管理する場合、従来のRDBではサーバーを増やして対応する以外に手段がありません。過去には、機器から送られてくる大量のデータを捌ききれずにサーバーが圧迫されたりエラーが発生するといった問題も起きたことがあります。たまったデータをデータレイクに吐き出すことでサーバーの負担を軽減できます。

DWHにビッグデータを貯める場合、データレイクよりデータを蓄えるためのストレージのコストが高いです。また、前処理を膨大なデータにかけた上で整理しなくてはならないので時間もかかります。そのため、まだ目的が定まっていない非構造化データを大量に入れておく場所としては不適切です。

RDBから過剰なデータをデータレイクに移し、分析に必要なデータをデータレイクから抽出してDWHに送るという流れを作ることでこれらの問題を解決し、コストとリスクを下げた分析基盤の構築ができます。

2-3.データレイクの注意点

データレイクは安価に大量のデータを保存しておけるため便利ですが、膨大なデータをそのまま格納するという特性上、注意点も存在しています。

  • データの専門家でないと扱うのが難しい
  • 「データの沼」とならないようにする

データの専門家でないと扱うのが難しい

生のデータがそのまま存在しているため、自分で前処理やデータの統合を行う必要があります。生データを扱う上では以下のように気を付けるポイントが多く、ビジネス担当者にはハードルが高いです。

  • データの信頼性をどのように確かめるか
  • データの統合はどのカラムをキーにして行うのか
  • 表記ゆれやデータ型の修正・統一

「データの沼」とならないようにする

データを格納する上でのルールを決めたり、格納したデータの特徴をメタデータとして記録したりしない場合、どこに何のデータがあるかわからないデータスワンプ(データの沼)状態になってしまいます。

加えて、誰にどこまでデータにアクセスする権限を与えるかなどのデータガバナンス上の取り決めも予めしておく必要があります。

データの検索性を担保し、沼化を避けるためにデータカタログを作成しておくとよいです。データカタログには以下4点のメタデータを整理して格納しましょう。

  1. 活用ノウハウに関する情報 (ビジネスメタデータ)
  2. データ仕様に関する情報 (アプリケーションメタデータ)
  3. データ品質に関する情報 (品質メタデータ)
  4. データ利用権限に関する情報 (セキュリティデータ)


3.データレイクでデータ分析基盤を構築する

DWHやデータレイクはどちらか一方を導入すればよい、というものではなく異なる役割を担っており、データの流れをパイプライン化することで最大の効果を発揮します。データレイクやDWH、BIツールなどを活用することで統合的なデータ分析基盤を構築し、部署ごとのデータのサイロ化や分析の属人化を防ぐことができます。

こちらの記事も是非参考にしてください。

データ分析基盤とは?知っておきたい構築のステップ

3-1.データレイクとDWHがフローに組み込まれた分析基盤

データレイクとDWHが組み込まれたデータアーキテクチャとしては以下のようなイメージができます。データレイクに各システムやデータソースからのデータが集約され、DWHに必要なデータが抽出、各部署はデータマートを使ってデータを可視化・分析するというのが一連の流れです。

データマネジメントやデータガバナンスの観点からも、共通のルールに基づいてデータを管理でき、高品質であることが保証されたデータを使って分析を進めることができます。

データプラットフォーム概観図

3-2.データレイクのプロダクトを選ぶ3つのポイント

最適なデータレイクのプロダクトを選び、先進的なデータ分析基盤の構築を目指す際には以下の3つがポイントになります。

  • ゴールから逆算して必要なプロダクトを考える
  • 互換性と柔軟性
  • 時間的な制約がある場合にはコンサルタントを活用する

ゴールから逆算して必要なプロダクトを考える

例えばデータレイクを導入する目的が機械学習やAIによってモデルを構築し、需要予測や異常検知といった予測によってビジネス上の戦略に役立てることであるとします。すると、データレイクは単にDWHにデータを供給するだけでなく、以下の条件を満たす必要があります。

  • 分析者が探索的に見ることができ、その際にデータが破損する恐れがない
  • 機械学習のライブラリが豊富なPythonやRといった機械学習の言語への拡張性がある

互換性と柔軟性

データレイクを選定する上では既存のデータベースやDWHなどのツールとの互換性を把握するべきです。データベースと相性がよく、スムーズにデータの受け渡しができ、DWHへのデータの書き出しも問題なくできればストレスなく導入できます。例えばSnowflakeであればデータレイクの機能とDWHの機能が両方あるので、1つのツール内でデータの保存を完結することができ、さらに接続できるデータベースやBIツールも豊富にあります。

次に、データ分析基盤の柔軟性とは、PoC(導入前検証)のように小さく始めることができ、なおかつビッグデータにも対応できることを指します。PoCをしたいのに初期導入コストが高すぎたり、ビッグデータを入れるとクエリの実行が極端に遅くなるようなデータ分析基盤はあまり優れているとは言えません。最新のクラウド型データレイクやDWHであれば大体使った分の料金を払えばよいため、この問題を解決できます。

時間的な制約がある場合や社内にノウハウの蓄積がない場合にはコンサルタントを活用する

特に早く進めていきたい、今すぐにデータ分析基盤を導入したい場合には、コンサルタントを利用したほうがいいかもしれません。自社単体で進めると要件定義がうまく固められなかったり、必要なツールの選定に時間がかかったりするため、導入までに時間がかかってしまいます。

データレイクとDWHの機能を併せ持つ「レイクハウス」

レイクハウスとは、DWHの生みの親であるビル・インモン氏が2017年頃に提唱した新しい概念でデータレイクとDWHのいいとこ取りをするツールになります。最終的には以下の姿を目指しています。

  • トランザクションをサポートして一貫性を保つ
  • 同時接続ユーザー数の増加やデータ量の増加に応じてシステムがスケールアウトできる
  • データレイクとDWHでデータを二重持ちする必要なく、BIがデータソースに直接アクセスできる
  • PythonやRのライブラリをAPIとして活用でき、直接データにつないで機械学習を実行できる
  • コストを削減できる
  • 非構造化データを正しく管理できる

つまり、シンプルかつコスト効率もよく、膨大で様々な種類のデータに対応でき、様々なデータアプリケーションに対応できるデータ分析基盤がレイクハウスである、と言えます。しかし、現状まだまだ性能は低く、近代的なDWHを上回ることができていません。


まとめ

今回はデータレイクが従来のデータ分析基盤と異なるポイントについて詳細にご説明しました。データレイクで何ができるのかを把握したうえで導入に取り組み、効果的にビジネスに役立てていただければ幸いです。

データ分析基盤を構築する上では、以下を踏まえた上でコストやデータガバナンスなど様々な視点から必要な製品の選定、実際の導入を検討する必要があります。

  • どんなデータを分析したいのか
  • 何を実現したいのか/どんなサービスに活用したいのか
  • どんなインサイトが得たいのか

弊社では単なる導入だけでなく、導入後のお悩みに向き合い、データマネジメントやデータガバナンスの観点から戦略立案を行うなど豊富な経験を有しております。既にデータ分析基盤を構築されている場合でもお気軽にご相談ください。

国内大手医療機器メーカー|データマネジメント戦略の策定

コメント

お問い合わせ

サービスに関するご質問や講演依頼など、お気軽にお問い合わせください。2営業日以内にお返事いたします。

データをビジネスに活かす
デジタル化/DX/データ活用の成功事例