データレイクは社内のデータを一元的に保管し、データ分析や機械学習に必要なデータを提供する役割を担います。筆者はデータコンサルタントとして様々な企業のデータ活用基盤の構築に携わっており、データレイクの設計や製品比較などを行った経験があります。本記事では、その経験をもとにデータレイクについて定義やメリットから具体的な製品まで解説します。
1. データレイクの定義
本章ではデータレイクの定義について解説していきます。
データレイクとは加工前のデータ(生データ)を貯めるストレージ
データレイクとは構造化・非構造化データに関わらず、社内のデータをファイル形式で保管するためのリポジトリです。(リポジトリとはデータの保管場所です。)イメージとしてはGoogle DriveやOne Driveといったファイルストレージと同じ機能を持つものである考えていただいて良いでしょう。機能としては似ているのですが、Google Driveなど一般的なファイルストレージはドキュメントを共有したり、ローカルPCの拡張ストレージとしての用途がメインである一方で、データレイクはデータウェアハウスや機械学習モデルにデータを提供するために使用されます。そのため、後述するデータレイク製品には他のサービスやシステムとのコネクタが豊富に提供されていたり、詳細なアクセス権限の制御が可能であるなど、様々な機能を持ち合わせています。逆に、データレイクにファイルをおいたまま、そのファイルを編集したり、フォルダの名前を柔軟に変更したりすといったファイルストレージに求められる機能はデータレイク製品にはないことが多いです。
1.2 大量のデータを一元的に管理できる
データレイクでは大量のデータを扱うことが前提となっており、データレイクと銘打って販売されているツールやサービスは大量のデータを扱う事が可能になっています。特に昨今主流となっているクラウドサービス上のデータレイク製品は容量無制限となっています。半永久的に増加するデータを一元管理するために、データレイクは大容量のストレージやスケール構成を持っているのです。
1.3 非構造化データを扱うことも可能
データレイクではデータをファイル形式で扱うため、画像や音声といった非構造化データを扱うことができます。データウェアハウスは構造化データを分析に向いた形で管理する一方で、非構造化データを扱う事ができません。非構造化データを使用した機械学習モデルの学習データなどでは画像データをデータレイクに保存し、モデルに学習させることが多いです。
1.4 分析・可視化には使いづらい
データレイクは生データを管理するといった特徴から、BIツールに接続してのデータ分析・可視化などに使用するには向いていません。データウェアハウスは分析に向いた形式で事前にスキーマ定義をして、構造化データを管理します。(スキーマオンライト)しかし、データレイクではスキーマは事前に決まっていないため自由にデータを保存できる(スキーマオンリード)一方で、データが集計されていなかったり、キーをもとに情報が付与されてなかったりします。故に、BIツールなどに接続する際はデータレイクからのデータを整形したデータウェアハウスを使用することをお勧めします。
2. データレイクのメリット
データレイクを構築することで、企業にとってはさまざまなメリットがあります。
2.1 データのサイロ化を防ぐことができる
データレイクを構築・整備することで、社内データのサイロ化を防ぐ事ができます。データレイクに部署や業務毎にディレクトリを分けてデータを管理することで、データの所在が明白になり、必要に応じてすぐに取り出す事ができます。私が担当する案件でも、部署や業務システムごとにデータが散財してデータがどこにあるかわからないといったクライアント様が多数いらっしゃいますが、その場合にはデータレイクは大きな効果を発揮するでしょう。
2.2 生データを残すことが出来る
データレイクは生データをファイル形式でそのまま保管します。故に、ファクトチェックなどで生データを確認したい場合にすぐにデータを確認する事ができます。データを加工して分析しやすい形式で保存するデータウェアハウスにはないデータレイクならではの強みでしょう。
3. データレイク構築の3STEP
本章ではデータレイクを導入する際の流れを3STEPで解説します。
STEP1 社内に存在するシステム・データを整理する
まずは社内に存在するシステム・データを整理しましょう。手間のかかる作業ですが、データレイクを導入する上で避けては通れない作業です。各部署やシステムがどのようなデータを持っていて、何に使用しているかを整理することで、データレイクに入れて全社的に管理すべきものか、データレイクに統合する優先度は高いのかなどを判断する事ができます。
STEP2 データレイクのディレクトリ設計を行う
社内のデータを整備した後、データレイクに統合すべきデータの定義とそれらをどのようなディレクトリで保管するかの設計を行いましょう。基本的には部署やシステムといったエンティティごとで問題ないでしょう。データ活用の目的はデータマート以降で考慮すべきであり、生データを扱うデータマートの設計では普段の業務に基づいた設計にした方が管理しやすいでしょう。
STEP3 データレイク製品を導入し、実際にデータを統合する
ディレクトリ設計までできた後は実際にデータレイク製品を導入し、データを統合しましょう。代表的なデータレイク製品は4章で解説していますが、昨今ではクラウドの台頭により初期費用なしかつ従量課金制でデータレイクの利用を開始する事ができます。業務システムとデータレイクとの連携には、AWS Glueやtroccoといったノーコードツールを利用することで、開発工数もできる限り減らす事ができるでしょう。
また、データレイクに集めたデータをデータウェアハウスにデータ分析しやすい形式で保存することで、データのプロフェッショナルではないビジネス部門のユーザーも自発的にデータ分析を行う環境を整備する事ができます。
4. 代表的なデータレイク製品
本章では代表的なデータレイク製品について解説いたします。
4.1 Google Cloud Storage
Google Cloud StorageはGoogleが提供するクラウドサービスであるGoogle Cloudのサービスの1つです。ユーザー側でインフラ管理の必要がないマネージドサービスであるため、ユーザーはディレクトリ設計やアクセス制御といったデータ自体の管理に集中する事ができます。初期費用はかからず、従量課金制となっているため、開発工数がほとんどかからず、スモールスタートに向いています。また、アクセス頻度に応じて4つのストレージがあり、アクセス頻度が低いデータはより低いコストで保管する事ができます。データウェアハウス製品のデファクトスタンダード的存在であるGoogle BigQueryとの連携が容易であり、高度なデータ分析を求める企業にとっては有用なサービスとなっています。
4.2 Amazon Simple Storage Service
Amazon S3はAmazonが提供するクラウドプラットフォームサービスであるAWSのデータレイクサービスです。こちらもCloud Storage同様マネージドサービスとなっており、ユーザーはデータ自体の管理に集中する事ができます。料金形態もGoogle Cloud Storageとほとんど同じく、初期費用なしの従量課金制となっています。アクセス頻度に応じたストレージクラスは7つあります。Amazon S3の強みはAWSが持つ多彩なコネクタによって様々なデータソースとの連携が容易である事です。多くの業務システムを使用していたり、すでにAWSを使用している企業にとって、Amazon S3は有用なサービスとなっています。
5. まとめ
本記事ではデータレイクについて解説しました。ぜひデータレイクを整備し、社内のデータ活用を促進していきましょう。
データビズラボでは、必要なデータ活用人材を育成・確保するための研修やデータ人材戦略の支援を行っております。
データ活用人材が不足してお困りの場合はデータビズラボへお問い合わせください。
コメント