デジタルトランスフォーメーションやデジタルマーケティングの推進の文脈でデータを活用しようとはしているものの、以下のような状態にある方は多いでしょう。
- データ分析をしたいが課題に合うデータがそもそも会社に存在しない
- 自社はデータ収集をしている段階になったが、収集そのものの作業負荷が大変になっている
- 課題解決に対し、自社のデータに加え足りないデータは明確だがが、公開されているもので手に入るか、売っているものなのかわからない
など、データ収集に関する悩みは尽きません。
そこで本記事では、当社の豊富な実績をもとに、データ分析のスタート地点とも言える「データ収集」の重要性とその技術的方法について詳しく解説します。
また、データ分析自体については以下の記事をご参照くだ。
目次
1.「データ収集」とはデータ分析サイクルの一つである
データ収集とは、様々なデータの発生源から多種多様な情報を集めることです。
データ分析のプロセスの重要な一つのステップです。
- 課題定義・仮説立案
- データ収集・準備
- 探索
- データ加工
- モデル開発
- モデル検証
- モデル配置
- 精度評価・モニタリング
この分析サイクルは「アナリティクス・ライフサイクル」とも呼ばれ、一回限りで終わるのではなくこのサイクルを繰り返すのスピードと精度が競争力に直結します。
データマネジメントを推進するデータビズラボの研修資料をダウンロードする
2.データ・ドリブン経営の基盤であり加速させるのがデータ収集である
データ収集を行いデータ分析を行うことで、主に以下の点に関して示唆が出せ、データ・ドリブンの加速がされるものでしょう。
2-1.顧客の理解度を高める
顧客の一人一人を個人的に知ることは難しくほぼ不可能であるもの、顧客を理解すればするほど、顧客の期待に応えることは容易になります。データ収集によって、自社の顧客が誰であるかの理解を深め、その情報を組織全体に広めることが出来ます。後述する主なデータ収集方法を通じて、顧客が実際誰なのか、何に興味を持っているのか、企業として何を求めているのかを知ることができます。
2-2.事業改善や事業拡大のための領域の特定
データを収集して分析することで、自社がどこでうまくいっているのか、どこに改善の余地があるのかを知ることができます。また、ビジネスを拡大するための機会を見出すことも可能です、。
例えば、取引データを見れば、どの製品が最も人気があり、どの製品があまり売れていないのかを知ることができます。この情報をもとに、自社のベストセラー商品に焦点を当て、他の類似商品を開発することができるかもしれません。また、製品に関する顧客からの苦情を見て、どのような点に問題があるのかを確認し、改善検討することもできます。
データは、拡大のための機会を特定するのにも役立ちます。例えば、あなたがEコマース事業や小売業を営んでいて、実店舗の開設を検討しているとします。顧客データを見れば、顧客がどこにいるのかがわかり、既存の顧客が集中しているエリアに1号店を出店することができます。その後、他の似たようなエリアにも進出することができます。
3.データ収集の方法
データ収集の方法は欲しいデータによって多種多様です。
収集したいデータによってとるべき選択肢は様々ですが、以下が主なデータ収集の技術的な方法になるでしょう。
3-1.データカタログサイトのウェブページからファイルをダウンロードする
最も簡単な方法が、ウェブページからエクセルやCSVなどをダウンロードする方法です。
プログラミングスキルが無くても扱いやすいファイル形式のデータをダウンロードすることができます。
特に手軽にデータ収集ができるデータカタログサイトとして、以下があります。
e-stat
日本政府が国勢調査、王産業動向調査、家計調査などの統計データを無償のオープンデータとして提供しています。
生活定点
博報堂が消費者の意識調査データを提供しています。
3-2.ウェブAPIを利用する
次に紹介する方法が、データカタログサイトやネットショッピング、SNSなどが公開しているウェブAPIからデータを取得する方法です。
APIは「アプリケーション・プログラミング・インターフェース」の略で、人間を介さずにコンピューター同士にやり取りさせることができるものです。
例えば、楽天のウェブAPIを、自社のBIツールと連携させて、楽天の商品ランキングのデータを自動で収集して、分析することも可能です。また、ExcelにはウェブAPIからデータを収集する関数が用意されています。
APIも、無償版と有償版が公開されていることがあり、無償版は機能が絞られていることがあります。
3-3.スクレイピングを行う
ウェブページ上に欲しい情報が掲載されているが、ダウンロード機能やウェブAPIが提供されていない場合、「スクレイピング」という手法を用いて、データを収集することもできます。
スクレイピングでは、ソーシャルメディア上のデータや、ショッピングサイトのレビュー情報などを柔軟に取得することが可能です。当社では何らかのサービスや商品に対する消費者の感情分析などを行う際にはスクレイピングを使っています。
スクレイピングは、様々なプログラミング言語において便利なライブラリが無償で提供されていることもあり、基礎的なプログラミングスキルがあれば十分に扱える手法です。また、最近では、プログラミングなしで、スクレイピングができるツールも有償で提供されています。
尚、スクレイピングを行う場合は、ウェブサイトへの負荷、掲載情報の著作権、ウェブサイトの利用規約などに注意する必要があります。
3-4.IoT機器を使う
IoTは「インターネット・オブ・シングス」の略で、「様々なものがインターネットに繋がること」を指しています。
IoT機器には、センサーを取り付けることができます。例えば、従来の住宅情報サイトには掲載されていなかった部屋の温度、湿度、照度など、人間の五感で感知するような情報をデータとして収集できます。
前述の3-1/3-2/3-3で紹介した手法に比べて新しい手法で、IoTは第四次産業革命の中核となる技術とされています。
3-5.データ連携ツールを使う
ここまで社外からのデータ収集の手法を中心に紹介しましたが、社内のデータベース、データウェアハウス、ファイルサーバからのデータ収集ももちろん重要です。そこで活躍するのが、データ連携ツールです。
オープンソースソフトウェアのEmbulk、商用ソフトウェアではAsteriaが有名です。Embulkを使うと、複雑なプログラミングは必要なく、YAMLなどの簡単な記述で、柔軟なデータ収集が実現できます。勿論、社内だけでなく、社外からのデータ収集にも利用できます。社内外のデータを効率的に収集して、アナリティクス・ライフサイクルのスピードと精度を上げるには必須のツールと言えるでしょう。
4.ファーストパーティデータとセカンド/サードパーティデータを組み合わせて使うことが質の高い分析に必須である
収集するデータには、どのように収集するにしろ、大きく分けてファーストパーティデータ、セカンドパーティデータ、サードパーティデータと呼ばれるものがあります。それぞれの強み・弱みがあるため、それぞれの弱点を補強しながらうまく組み合わせて使うことをおすすめします。それぞれかいつまんで一言で表すと以下の通りです。
- ファーストパーティデータ:自社が自ら直接収集・管理しているビジネス関連性の強いデータ
- セカンドパーティデータ:他者/他社のファーストパーティデータ
- サードパーティデータ:競合らも購入・取得できるデータ
4-1.データの質とその取得しやすさは常にトレードオフ
ファーストパーティ、セカンドパーティ、サードパーティの大きな違いはデータの質とリーチの度合いです。そしてこれらは常にトレードオフです。ざっくり表すと以下のようなイメージです。
ここでのデータの質は、”どの程度自社ビジネスに関連性があり、種類・量共に豊富なデータがそろっているか”という視点です。自社のCRMデータなどは、顧客ターゲットをするにあたりもっとも質の良いものであるはずです。しかし、そのデータだけでは新規顧客の開拓には限界があるでしょう。
当社では、これらを独立的に使うのではなく、様々な課題やシナリオに合わせ、融合的に組み合わせて分析しています。
4-2.ファーストパーティデータは最も強力であるが、新たな仮説を立たせにくい
ファーストパーティデータは自社が自ら直接収集・管理しているデータです。例えば以下のようなものがあるでしょう。
- WEBサイトのログデータ(Google Analyticsなど)
- CRMデータ
- 顧客からのフィードバック、レビューデータ
- 店舗内のビーコンデータ
- 購買データ(POSデータなど)
- サポートセンターデータ
これらは自社の取引活動から生成されているものでありもっとも強力で信頼できるデータです。ファーストパーティデータは自社の好きなように柔軟にセグメント分けや購買した属性のプロファイルなどを知れるのも大きな利点です。
しかしながら、ファーストパーティならではの、自社のデータだけでは全く新たな顧客ターゲットに対する精緻な仮説が立たせにくい、という弱点もあります。
4-3.セカンドパーティデータでリーチを拡大させるが、データの質はコントロールできない
セカンドパーティデータは他社のファーストパーティデータです。セカンドパーティデータを購入することで、マーケティング施策や顧客個々人のパーソナライズに向けて活用します。
自社に関連性のあるファーストパーティデータだけでは実現しにくいスケールを意識したデータ分析が可能になります。
使途としては、既存御客を超えたプロモーションを行う際や顧客獲得を行うときが多く、データマネジメントプラットフォームのパートナーシップなどを結ぶこともあります。わかりやすい例でいえば、ホテル予約のWEBサイトが航空会社からの空き状況データを見られるようにしていることなどがあります。利益相反などがなければ相互に便益があるものです。
しかしながら、セカンドパーティデータの本質的な弱点として、取得したデータの質をファーストパーティデータのようにコントロール出来ないということがあります。
4-4.サードパーティデータで補完し新たなターゲティングを目指す
サードパーティデータは多種多様のソース(源)から集めたデータで、一般的にはデモグラデータ(属性データ)などが含まれます。既存データ(ファーストパーティデータ)を補完することで新たなセグメントを見出したり、より良いターゲティングを目指すのに使われます。
サードパーティデータの弱点は質になります。自社との関係性やビジネスから生成された物ではなく統計的で集計がされたデータになっています。また、自社の競合へ公開・販売されていることもあります。
5.データ収集のよくある4つの課題と対応策
データ収集の戦略を考えるにあたっては様々な技術とが必要ではありますが、下記にこれまで当社にご相談いただいた主な課題とそれらに対する対応策を解説します。
5-1.データの仕様が不明確で品質が低い
データ仕様の管理不備に起因するデータ品質の問題は、ファーストパーティデータで圧倒的に多く発生します。
例えば、ECサイトのログデータには、当然商品を識別するコードが記録されていてほしいものです。そして、ログデータと商品のマスタデータを組み合わせることで、自社の顧客が、どのような商品を見比べていたのか、分析することで、新たな商品開発に活かしたいところです。ところが、そのような基礎的な分析のためのデータ品質さえ実現できていないケースが多くあります。ログデータに商品コードをセットすることは、Google Analytics等で簡単に設定できます。しかし、その設定を忘れてしまったり、購入完了ページではセットしていたけど購入前の検討段階のページではセットしていなかった、それによって分析できる内容が大幅に減ってしまった、ということは本当によくあるケースです。
このような課題の対応には、地道にデータの仕様を管理し、それが実現できることを定期的にチェックするしかありません。しかし、このような地道な作業も、効率を上げていくことは十分に可能です。例えば、商用ツールになりますが、ObservePointなどを使って、システム上でログデータの仕様を管理し、チェック作業を自動化することで、効率良く品質の高いデータを収集することができます。
5-2.データの収集および管理に係るコストが大きく、費用対効果が説明しづらい
新たなデータを収集する場合、内容や調査を委託するマーケティングリサーチ会社にもよりますが、数百万円単位の投資になることもあります。
また、無償のオープンデータをウェブAPI経由で取得する場合でも、1回のデータ収集のコスト自体は小さなものですが、その回数が多くなってきたり、スクレイピングやセンサーデータなど収集対象の種類が多くなってくると、その処理の実行を管理するサーバーコストや、データ連携ツールの維持コストが増えてきます。
クラウドコンピューティングによって、サーバーやツールを使った分だけ費用を支払うオンデマンド課金が当たり前になり、データ活用のイニシャルコストは小さくなりましたが、自社のデータ活用が進むことでのランニングコストの増大は避けられない問題です。そして、コストが大きくなってくると、費用対効果の説明の難易度が上がっていきます。
5-3.欲しいデータが手に入らない、欲しいデータが何かわからない
データ活用したいけれどもこのような課題感がありデータ収集ステップで活用ステージが頓挫してしまう企業が多いです。
実際のところ、データ収集は実際のところ経験量がものを言います。なぜなら、
- 自社が後何のデータがあれば答えが出そうなのか
- 適切な分析手法は何か
- その手法に対してどのようなデータが必要か
- 時間軸はどの程度必要か
- 信頼に足るデータはどこにあるか
- 中長期的な運用に耐えるか
を同時に考慮しながらデータ収集の戦略をたてなければならないからです。
そのため当社のようなデータ分析のコンサルティング会社が入り、データ分析や活用の企画設計をする際にデータ収集の戦略も合わせて行い、その実装まで行っていることがほとんどです。
6.まとめ
データ収集はデジタルトランスフォーメーション、データ活用の中核でもあります。データ収集は収集するだけでは価値を生まず、分析・活用して初めて価値を持ちます。
ガベージイン・ガベージアウト(質の低いものを入れても質の引くいものしか出てこない)であり、インプットとなるデータ収集のステップから効率的に質の良いデータを収集できるように仕組みを整えていくことが今後競争力の高い企業のマスト要件となるでしょう。
データを管理・活用し、ビジネスの拡大をご検討中であればデータビズラボへお問い合わせください。
データビズラボでは状況やニーズに合わせた様々なサポートをご提供いたします。
データ収集を成功させるにはデータ分析基盤の構築も必須です。こちらの記事にその進め方やよくある質問に対して回答しています。ぜひご覧ください。
コメント