ビジネスシーンのみならず、あらゆるシーンで見聞きするようになったデータサイエンス。「結局のところデータサイエンスとは何なのか?」と、その意味や他のデータ用語との違い、学び方などが気になっている方も多いでしょう。
本記事ではデータ人材に限らず、今や幅広いビジネスパーソンが基礎知識として知っておくべきデータサイエンスについてご紹介します。
目次
データサイエンスとは
データサイエンスとはある課題を解決するために、データを用いて新しいインサイト(洞察)を導き出すための手法、技術、および研究分野のことです。そこには数学や統計学などの学問や、AIやクラウドといった先進技術などさまざまな要素が関わっています。
データサイエンスを駆使し、ビジネスに新しいインサイトをもたらす人材を「データサイエンティスト」と呼びます。アメリカのビジネス誌にて「21世紀で最もセクシー(魅了的)な職業」と紹介されたことで、データサイエンティストの存在が一躍脚光を浴びるようになりました(ハーバード・ビジネス・レビューより)。
そんなデータサイエンティストの活躍の場は多岐に渡ります。あらゆる業界でその地位が高まっているのはもちろん、スポーツビジネスの世界でもデータサイエンスを活用したマネジメント戦略が浸透しているのです。
私たちの身近なデータサイエンス
AIやビッグデータ然り、データサイエンスも私たちの身近なところに溢れています。
たとえば気象予測は身近なデータサイエンスの一つです。過去の気象データや現在の衛星データなどをデータサイエンスを用いて解析することで、数日・数ヶ月先の気象予測を可能にしています。この他にもさまざまなシーンでデータサイエンスが活用されています。
- 交通案内アプリのルート推奨
- 株価の変動予測とリスク評価
- Google検索のおすすめ機能
- 食品製造における鮮度管理
- 感染症拡大状況の把握など
このように整理してみると、データサイエンスは数十年前から我々の生活に浸透していたものだということがわかります。
データサイエンスのライフサイクル
もう一歩踏み込んだ説明として、カリフォルニア大学バークレー校が公表している「データサイエンスのライフサイクル」をご紹介します。データサイエンスとそれを扱うデータサイエンティストは以下のライフサイクルにしたがって、新しいインサイトの発見に日々努めています。
出典:What is Data Science?(データサイエンスとは?)|UC Barkeley Online
プロセスごとの役割を簡単に説明します。
Capture(取得) | ビジネス課題に応じて必要なデータを取得する、あるいは日々のシステム入力を通じてデータを蓄積する。 |
Mantain(保守) | 取得・蓄積したデータを適切なフォーマット(形や粒度)で管理する。さらにデータを継続的に保持するための仕組みを作る。 |
Process(分析) | データモデリング(データの設計)を行い、マイニングやクラスタリングといった手法を用いてデータの分類・整理を行う。 |
Analyze(解析) | Processによって分類・整理したデータに対し、回帰分析やテキストマイニングといった統計的手法を用いてインサイト(洞察)を生み出す。 |
Communicate(伝達) | Analyzeによって生まれたインサイトを意思決定に活かせるようレポートを出力する。一般的にはBIツールを使用する。Captureに戻り、データサイエンスのサイクルを回し続ける。 |
データサイエンスとそれを扱うデータサイエンティストが数年前にビジネスのトレンド入りしたことから、「データサイエンスは派手なもの」というイメージを持っている方も多いかもしれません(前述のハーバード・ビジネス・レビューの影響もあるでしょう)。
実際はデータサイエンスのライフサイクルを堅実に回すことでインサイトを少しずつ発見し、それをどうビジネスに活かすかを考え続けるという地道な作業が続きます。大発見的なインサイトが突然生み出されることもありますが、非常に稀なケースです。
しかし小さなインサイトを積み重ねていけば、いずれは大きなビジネスを動かす大切な要素となります。小さいながらも新しい発見をしたり、ときには当たり前のことを再確認したり、そうしたデータ分析プロセスを楽しめる方がデータサイエンティストに向いているでしょう。
データサイエンスを学ぶためにはどうすべきか
では、データサイエンスを学ぶためには何から始めれば良いのか。ここでは基本的な3つの学習方法をご紹介します。
データサイエンス教育に力を入れている大学で学ぶ
データサイエンティストへのニーズが高まる中、日本国内でもデータサイエンス学部を新設したり、データサイエンス教育を強化したりする大学が増えています。
たとえば国公立大学なら滋賀大学や横浜市立大学が2017年・2018年にデータサイエンス学部を新設しました。どちらの大学でもデータサイエンス学部は、非常に人気の高い学部となっています。
私立大学なら武蔵野大学や中央大学などがデータサイエンス学部を新設しており、東京理科大学では国内外との連携を図るデータサイエンスセンターが設置されています。以下の記事ではデータサイエンスが学べる国内外の大学をまとめているので、ぜひ参考にしてみてください。
データサイエンスが学べるおすすめ大学15選【海外大学も紹介】
このような大学でデータサイエンスを学ぶメリットは、データサイエンティストとしてのスキル・知識・素養を幅広く、体系的に学べることです。
近年では社会人の学び直し(リスキリング)を支援する大学も拡大し、これから大学生になる方だけでなくビジネスの第一線で活躍している社会人が、大学でデータサイエンスを学習するケースが増えています。
数学・統計学・データ解析などを独学で習得する
数学・統計学・データ解析などデータサイエンスに関わる学問や技術を独学で学び、データサイエンティストとして活躍する方も少なくありません。仕事に忙しく大学での学び直しは難しいという方は、自分のペースで学習を進められる独学がおすすめです。具体的には次のような学習方法があります。
書籍で学ぶ | データサイエンスについて説明する基礎本から入り、数学・統計学・データ解析とレベルアップしながら独学できるのが利点。データ分析のおすすめ本 |
スクールに通う | 民間企業が運営しているデータサイエンススクールは高額なコストはかかるものの、データサイエンスを体系的に学べるのが利点。 |
コミュニティに参加する | データサイエンスを扱うコミュニティに参加して、実際のデータサイエンティストや他のコミュニティ参加者と交流しながらデータサイエンスを学べるのが利点。例:データラーニングギルド |
どの学習方法が合っているかは人によって異なりますが、データサイエンスを独学するにあたって重要なことは共通しています。それは「明確な目的・目標を持ち、インプットよりもアウトプットを重視する」です。
まずは「なぜデータサイエンスを学ぶのか?」の目的と目標を明確にしましょう。「データサイエンスって何だかかっこいい」など漠然とした気持ちだけでは、学習が長続きしません。また、学習の意気込みはあっても目的・目標が明確でなければ学習効率が下がり、挫折する可能性が上がってしまいます。
次に、データサイエンスの知識を身につけること(インプット)よりも手を動かすこと(アウトプット)を重視しましょう。データサイエンスは「数学・統計学・データ解析をケースバイケースで正しく使い分け、適切なインサイトを獲得すること」がとても重要です。知識を得るだけではそのノウハウ・感覚が養われないため、アウトプットを何よりも重視しましょう(もちろんしっかりインプットした上で)。
データサイエンスを扱っている企業に就職・転職する
未経験でもデータサイエンスを扱っている企業に就職・転職し、データサイエンスの世界に飛び込むのも一つの学習方法です。ただし、就職・転職するだけでデータサイエンティストへの道が開けるわけではないので注意してください。
データビズラボのようなデータコンサルティング企業に就職・転職すれば、前職よりもデータサイエンスに触れる機会が増えるのは明らかです。それが管理部やマーケターなどデータ人材以外の職種であっても、データサイエンスを学べる環境が整います。
一方で、データサイエンスに関するスキル・知識を吸収したいという継続的な意欲・向上心が欠かせません。「データサイエンスって面白そう」といった漠然とした気持ちだけでは、自分と企業の双方にとって幸せな結果にならないので、データサイエンス企業への就職・転職はじっくりと考えた上で判断しましょう。
データサイエンティストとは
データサイエンスを習得したデータ人材であるデータサイエンティスト。ここではその仕事内容と、求められるスキルをご紹介します。
データサイエンティストの主な仕事内容
データサイエンティストの仕事は、クライアントのビジネス課題を理解することから始まります。データサイエンスは「特定の課題に対して適切な手法を用いてインサイトを得ること」なので、その実現のためにビジネス課題の理解が欠かせません。
データを活用したビジネス課題の解決策を立案した上で、分析するデータの決定と収集、クレンジング(データの品質を上げる)、データモデリング(データ同士の関係を視覚的にデザインする)、データ検証(データの整合性を取る)とプロセスを進めていきます。
さらにデータ分析に必要なプログラムの実装やBIツールの導入・構築などを経て、データの分析・解析を行います。そこから継続的にインサイトを得て、クライアントのビジネス課題解決をサポートするのがデータサイエンティストの仕事内容です。
あるいは、これらの仕事内容をコンサルティングとして提供し、クライアントのデータ分析環境の内製化などを支援します。
データサイエンティストに求められるスキル
データサイエンティストに求められるスキルには、次のようなものがあります。
- 大学専門課程レベルの数学
- 大学専門課程レベルの統計学
- データモデリングスキル
- データクレンジングスキル
- データビジュアライゼーションスキル
- その他データ関連のツール・技術
- ビジネスコミュニケーションスキル
- ドキュメンテーションスキル
求められるスキルの特徴として、コミュニケーションやドキュメンテーションといった一般的なビジネス能力。さらにデータをわかりやすく可視化するためのデザインスキルも求められます。このため文系からデータサイエンティストに転身し、前線で活躍している方も実は少なくありません。
数学や統計学などのデータサイエンススキルは学習難度が高いですが、体系化された知識なので努力次第で誰でも習得できます。「自分は文系だから」や「うちの会社が文系揃いだから」といった理由でデータサイエンティストへの転身や育成を諦めなければ、優秀なデータサイエンティストになる(生み出す)チャンスは大いにあります。
データサイエンスを支援するツール・技術の数々
データサイエンスの現場ではさまざまなツールと技術が使われています。データサイエンティストを目指したい方や社内で育成したい方のために、具体的にどういった技術が必要かを簡単にご紹介します。
R | 統計やデータ解析に特化したプログラミング言語。シンプルで短いコードでも統計・解析が可能で、データサイエンスの現場では欠かせない。 |
Python | 汎用的なプログラミング言語。AI・機械学習の分野で特に使われており、ここ数年で認知・人気ともに急上昇した。データサイエンスに関するライブラリ(分析パッケージ)が豊富。 |
Tableau | BIツール。ビジュアル分析を得意としており、直感的な操作でデータサイエンスの専門家でなくても扱える。 |
Power BI | MicrosoftのBIツール。Microsoft製品との親和性が高く、環境を問わずさまざまなシステムと連携できるのが大きな強み。 |
Apache Spark | 膨大なデータを高速分散処理するオープンソースフレームワーク(無償で利用できる環境)。リアルタイム処理が得意。 |
Apache Hadoop | 膨大なデータを高速分散処理するオープンソースフレームワーク。Apache Sparkよりも拡張性・安定性が高い。 |
Apache Pig | オープンソースのライブラリ。Apache Hadoopで実行されるプログラムを作成するのに欠かせない。 |
MapReduce | ペタバイト(GBの100万倍)級のデータを処理するため、並列実行されるアプリケーションを作成できる。Apache Hadoop上で動作する。 |
NoSQL databases | 画像、動画、テキストなどの非構造化データ・半構造化データも扱えるデータベース。 |
GitHub | 世界中の開発者が利用するソフトウェア開発プラットフォーム。チームでデータ分析を進める際の管理ツールとして欠かせない。 |
D3.js | データ可視化のためのライブラリ。Java Scriptというプログラミング言語を使用し、データをさまざまなデザインで可視化できる。 |
クラウドコンピューティング | オンラインでサーバー環境を構築できるプラットフォーム。膨大なデータをリアルタイムで処理するような現場では、クラウドコンピューティングの柔軟性・拡張性が欠かせない。 |
データサイエンティストはこれら全てのツール・技術を習得しているわけではなく、データ分析の目的に応じてそれぞれの専門家をプロジェクトに巻き込みます。
もちろん複数のツール・技術を習得している方がデータサイエンティストとして活躍の場が広がりますが、まずは自分がデータサイエンスを学ぶ目的・目標に応じて最適なツール・技術から習得していくことが大切です。
まとめ
本記事ではデータサイエンスの基礎知識から学習方法、データサイエンティストの仕事内容などを解説しました。
日本ではデータサイエンティストを含めたデータ人材が、数十万人規模で不足していると言われています。データサイエンスの前線でビジネスを行う企業として、本記事を通じてデータサイエンスに興味を持つ方やデータサイエンティストを育成したいと考える企業が増えれば嬉しい限りです。
当メディアではデータサイエンス並びにデータ分析に関するさまざまなコンテンツを発信しています。データサイエンスに興味がある方は、ぜひ他の記事もご覧ください。
データビズラボでは、必要なデータ人材を育成・確保するための研修やデータ人材戦略の支援を行っております。
データサイエンティスト人材が不足してお困りの場合はデータビズラボへお問い合わせください
コメント