ビッグデータとは何でしょう?新聞やメディアで見ない日はないバズワードですね。
「ビッグデータ」とは文字通り「ビッグ」と「データ」で出来ている言葉ですので、なんとなく「大量のデータのことなんだろうなぁ」と思ってはいたけれど、実際のところちゃんと理解を深めたことはない方が多いのではないでしょうか?会議や講演でビッグデータという言葉を聞いて改めてビッグデータとは何かを確認されたくなった方も多いでしょう。
そこで、本記事では、「ビッグデータ」の意味からビッグデータの持つ特性、通常のデータとビッグデータの違い、そしてビッグデータの活用事例について網羅的に解説していきます。
目次
1.ビッグデータは一言で言えば「大量のデータの集合」である
実際、「ビッグデータ」は一言で言えば「大量のデータ」「大量のデータの集合」であり、そして時間とともに指数関数的に増えていくものを指します。下記は、ご参考までに最近の世の中で生成されるデータ量の伸びです。直近、世の中でどの程度のデータが生成されるのかに関しては様々な予測がされていますが、データは日々指数関数的に増えていることがわかるでしょう。
出典:Data Age2025, The Digitization of the World From Edge to Core,November 2018
例えば、ニューヨーク株式市場では、1日あたり1TB(テラバイト)の取引データが生成されています。
その他、ソーシャルメディアのデータなどは、日々ユーザーの投稿が大量の蓄積されるビッグデータの好例です。また、大企業で2万人分のPC稼働ログが毎秒溜まっていくことなども、ビッグデータとしてイメージしやすいかもしれません。
1-1.大企業に限らず、多くの人や企業が、ビッグデータを保有している
大企業ではなくとも、経費精算システムを使っていたり、勤怠システム、顧客管理システムなどを使っている企業は多いでしょう。そのような、普段”日常的に目に見えるシステムやツール類”も多くの人の長い時間のデータがたまっていれば「ビッグデータ」であり、分析する価値のある資産です。
1-2.データにはビッグデータとは言えないものもある
ビッグデータという言葉自体、「1TB以下はビッグデータではない」など閾値があるようなものではありませんが、量的にあまりに小さいデータはビッグデータとは呼びません。
例えば、iPhoneのメモ機能でとったその日のご自身メモデータはビッグデータとは言えません。しかし、これが組織で使っているiPhoneで、会社の従業員1000人の通話記録、ログ、iCloudのデータの集合体であれば、まさに「大量のデータの集合」であり、ビッグデータと言います。
もちろん例外はあるものの、ざっくり下記のようなイメージで大きく間違っていません。
ビッグデータではないもの | ビッグデータ |
---|---|
個人一人に属するもの | 組織に属するもの |
ローカルPCにあるもの | クラウド上に乗った集合体 |
1-3.ビッグデータには「種類」がある
ビッグデータには多くの種類のデータがあります。ここでは、代表的な5種類を簡単にご紹介します。下記は複合的な要素を持ち重複している部分もあります。そして、全てのデータの種類を挙げているものではありません。しかし、本章ではビッグデータの種類のイメージを持っていただくことを目的とするためよく扱われるカテゴリとして、下記の通りご紹介します。
構造化データ
それぞれのデータの意味が定義づけられており、その多くが数値のデータです。
非構造化データ
テキストや画像、動画、ドキュメントなどを指します。わかりやすい例としては、カスタマーセンターなどのクレーム対応のデータ、契約書、社内に飛び交うEメールなどがあります。
地理データ
道、建物、川、湖、住所など地理的な情報システムから生成されるデータです。
自然言語データ
人間から生成される、主に口語でのデータです。自然言語データのソースとしては、スピーチのデータ、携帯電話などがイメージしやすいでしょう。
時系列データ
継続的な時間のデータの連なりです。例えば、2014年から2020年の日次の売上情報を持つデータや、株価の推移データなどは代表的な時系列データといえます。
DXの大指針となる「DXの羅針盤-よくある19の質問に回答」をダウンロードする
2.「ビッグデータ」をビッグデータたらしめているもの:ビッグデータの特性
1章ではビッグデータはとにかく大量のデータであると申しましたが、厳密に言うと、ビッグデータをビッグデータたらしめているもの3つの要素があります。厳密に理解するとより正確な理解につながるのでこちらでご紹介します。
「ビッグデータ」は直訳すると「大きい(大量の)データ」、ですが、概念上この3つの要素が当てはまっている状態のことを指します。
- 大量・膨大である(Volume)
- 高速である(Velocity)
- 多様性がある(Variety)
英語では、これら3つ、Volume、Velocity、Varietyの頭文字をとって「3V」と言ったりします。一つ一つ見ていきましょう。
2-1.大量・膨大であること(Volume)
文字通りデータが「膨大」であることを指します。1章で前述した通り、量的に小さいデータはビッグデータとは言いません。
時代を経て、ギガバイト→テラバイト→ペタバイト、など標準的に扱うデータボリュームがどんどん増えていっていますよね。
- データを収集できる”源”となるものが激増している:IoTや様々なデバイス、ビデオ、写真、SNS、その他様々なプラットフォームなど、ソースとなるものが増えているためです。
- ストレージ単価が下がった:技術の進化により、データをストレージ(貯留・保管)するコストが格段に下がったというのも、データ量激増に拍車をかけました。
2-2.高速であること(Velocity)
データを貯める空間との通信が早く、リアルタイムデータなど、データ取得や生成におけるタイムスパンが非常に短いデータのことです。身近な具体例ですと、通勤時にかざすカードリーダーなどが挙げられます。
カードをカードリーダーにピッとかざした瞬間に誰が何時何分何秒にかざしたデータがデータベースに記録されます。これはリアルタイムの通信の典型的な例です。
一方、「高速でない」とは例えば月末などの月に一回、その月のデータを集め一括処理すること(月次バッチ処理)などがあたるでしょう。
取引が行われて1ヶ月後に通信・処理されるのと、リアルタイムで処理されるのとでは、そのスピードは全く違います。また、ご参考として、2025年には世界で生成されるデータの30%がリアルタイムデータになるという示唆もあります。ここからも、リアルタイムデータが欲されている状況、またリアルタイムデータでなければ活用しにくいことが推察できるかと思います。
2-3.多様性があること(Variety)
データの形態が文字、音声データ、動画など”多様”なデータがデータベースにあるということです。
昔は一つのテーブル(表のようなもの)を扱っていましたが、それがデータベースとなり、また写真や音楽などの非構造化データ(詳しくは5章に記載)と言われる様々なデータが出てきました。
3.ビッグデータの活用事例
それでは、ビッグデータはどこで使われているのでしょうか。ビッグデータの使用目的は様々ですが、下記に、特にイメージしやすい幾つかの例を見てみましょう。
3-1.Eコマース
Eコマース領域では、顧客のデータ、商品データ、会員情報(人的属性含め)、カード情報、サイト遷移など、様々なデータがビッグデータとして保持されています。
こうしたデータは既に様々な場面で活用されています。例えば、任意の顧客が次に購入するであろう商品を予測し、おすすめ商品として提案するときは、Eコマースのデータは非常に有用です。これは売上に直結するデータ活用の好例ですね。
3-2.SUICA
SUICAなどの交通カードは、そのICチップにより、運賃だけではなく買い物をした際にその情報が蓄積されビッグデータとなっています。蓄積されたビッグデータを社外に提供しているので、エリアマーケティングに使われていることもあるでしょう。
3-3.TwitterなどのSNS
TwitterやFacebookなどでのSNSでは、その閲覧履歴など様々な情報から、その人に最適な広告を自動的に選別し、表示されるようにしています。これもビッグデータのおかげです。
4.ビッグデータはツールやテクノロジーで初めて”使えるもの”になる
データさえあれば何かすぐにできるんでしょ、と思う方もいらっしゃるかもしれません。しかし、大量のデータを真に価値あるものにするにはツールやテクノロジーが必要です。
ここでは個別的な詳細は割愛しますが、ざっくり下記のようなプロセスを経てビッグデータは価値を持ちます。
- ビッグデータを”ためる”(データストレージ:例 Hadoopなど)
- ためたものから”採掘する”(データマイニング:例 Presto、Elasticsearch、Splunk、Sparkなど)
- 採掘したものから”磨く”(データアナリティクス&データビジュアライゼーション:例 R、Tableau、SAS、Lookerなど)
データマイニングのイメージ
このようにビッグデータは単に貯めておくだけでは価値は生まれず、活用するためにはプロセスが必要であるということを理解することが大切です。
5.積極的にビッグデータを活用する国内企業の例
3章ではサービスとしてビッグデータを活用している日常的な例を出しましたが、5章では特に企業にフォーカスをあてた例をご紹介します。ビッグデータを活用しビジネスの大きな展開に拍車をかけている、示唆深い代表的な国内の例です。
5-1.スシロー
スシローは「回転すし総合管理システム」で客の「食べる」データを解析して廃棄ロス、機会損失を削減したことで有名です。過去の顧客食べたネタや時間、皿数などのデータを利用して回すネタを予測しています。
- 1分後と15分後に必要な握りネタと数を常に予測
- 回転して時間が経った皿が減り、廃棄量は4分の1
引用:日本経済新聞「スシロー、ビッグデータ分析し寿司流す 廃棄量75%減」
5-2.ワークマン
ワークマンはこちらのご本でデータ経営をされていらっしゃることが有名ですね。ビッグデータ分析という狭い括りだけではなく組織としてのデータ経営が書かれている本で、とても面白いです。
- 需要予測で推奨発注数を算出
- 予測結果に基づき自動発注を実施
5-3.TSUTAYA:Tポイントカード
- 消費者の行動履歴を把握
- 顧客行動の解析
下記もTポイントカードの使われ方や最近の動向としてご参考になる記事です。
6.まとめ
ビッグデータはとにかく大量のデータであるということを説明してきました。今後は5GやIoTの登場でさらにモノからもデータが集めやすくなり、データの活用の幅は広がっていくものでしょう。
テクノロジーの進化により出来ることはどんどん増えるものですが、重要なのは一企業としての目標を定め、その目標に対して最も効果的・効率的にビッグデータの活用戦略を考えていくことです。
これからの日本の経営力を上げるために、ビッグデータを活用していきましょう!
データのことなら、高い技術力とビジネス理解を融合させる私たちにご相談ください。
当社では、データ分析/視覚化/データ基盤コンサルティング・PoC支援に加え、ビジュアルアナリティクス、ダッシュボードレビュー研修、役員・管理職向け研修などのトレーニングを提供しています。組織に根付くデータ活用戦略立案の伴走をしています。
コメント