「データ」というキーワードは、現代のビジネスやテクノロジーの世界でますます重要性を増しています。私たちの日常生活から企業の戦略立案まで、データは意思決定の基盤となり、競争力を高めるための鍵となっています。
本記事では、データの定義から基礎知識、種類をご紹介いたします。
目次
1.データとは
データとは「情報の素材」と述べることができます。すなわちデータとは価値を持たずに保管されているデータを分析・解釈・利用することで、有用な情報に変換できる事実や統計などのことです。たとえば、気温や湿度、風速などの気象データは「情報の素材」で、これらを解析して気象予報や気候変動の研究に役立てることができます。
そのほか、一日の気温の推移を記録したり、人々が購入した商品のリストを作ったり、音楽をデジタルフォーマットに変換したりすることで、私たちはデータを作り出します。これらのデータは、私たちの世界の一部を表しており、それを分析することで、より深い洞察や知識を得ることができます。
Hugh McLeodの原作に基づくDavid Somervilleのイラストを基にデータビズラボが作成
データの辞書的な定義
「データ」は日本工業規格(JIS規格)や新オックスフォード米語辞典において以下の定義がされています。
国際標準化機構の「ISO/IEC 2382-1」および日本工業規格の「X0001 情報処理用語-基本用語」におけるデータの用語定義
「データ」の用語定義は“A reinterpretable representation of information in a formalized manner suitable for communication, interpretation, or processing.”「情報の表現であって、伝達、解釈または処理に適するように形式化され、再度情報として解釈できるもの」とされている。
すなわちデータとは情報の表現方法の一種であり、それは様々な用途に合うように加工されて再度人が分析などをしやすいようにできるものということです。例えば、何時何分に誰が何を買ったかの購買データは情報の表現方法の一種です。それを分析ツールで処理しクラスタリングし顧客の分類を行ったとします。それは顧客の分布が分かる情報として新たに存在したということになります。このようにデータは形を変えて新たな情報になるという意味があると考えられます。
新オックスフォード米語辞典におけるデータの用語定義
「データは万物に関する事実を表現する役割を持つ」
例えば、経験や勘での表現は推測であるため、事実を表現できません。それに対してデータは証拠として事実を表現できます。
2.データの基礎知識
データは”0”または”1”で表された2進数である
コンピュータでは、データは”0”または”1”で表された2進数で定義されており、この値が磁気ディスク(HDD、FDなど)や半導体(SSD、USBメモリなど)に記録されています。
データの表記法(BitとByte)・SI接頭辞
2進数のデジタルデータには、bit(ビット)、Byte(バイト)などの単位があります。
bitが最小単位であり、2進数のデジタルデータ1桁分を表します。
半角1文字は8bitで表現され、半角1文字を表現するデータ量が1Byte(=8bit)と定義されています。
また、音声や動画などの膨大なデータ量を表す時には、下記のようなSI接頭語を使用することがほとんどです。
SI接頭辞 | 記号 | 10^n |
エクサ(exa) | E | 10^18 |
ペタ(peta) | P | 10^15 |
テラ(tera) | T | 10^12 |
ギガ(giga) | G | 10^9 |
メガ(mega) | M | 10^6 |
キロ(kilo) | k | 10^3 |
データの型
データを適切に活用するためにはデータの意味・属性といった型を考慮する必要があります。
主要なデータの型には整数型、浮動小数点型、文字列型、ブール型などがあり、プログラミングやデータ処理において重要な役割を果たします。
型 | 具体例 | 説明 | 利用例 |
整数型 | int(整数型) | 通常は32ビットとして表され、-2,147,483,648 から 2,147,483,647の範囲を持つ。 | 数値計算、ビット単位の操作 |
long(長整数型) | 通常は64ビットで表され、-9,223,372,036,854,775,808 から 9,223,372,036,854,775,807の範囲を持つ。 | 大きな整数値の処理、時間の計測 | |
short(短整数型) | 通常は16ビットで表され、-32,768 から 32,767の範囲を持つ。 | メモリ効率の向上、小さな整数値の処理 | |
byte(バイト型) | 通常は8ビットで表され、-128 から 127の範囲を持つ。 | バイナリデータの処理、ファイルの読み書き | |
浮動小数点型 | float(単精度浮動小数点数型) | 通常は32ビットで表され、約7桁の有効数字を持つ。 | 科学計算、グラフィックス処理 |
double(倍精度浮動小数点数型) | 通常は64ビットとして表され、約15桁の有効数字を持つ。 | 数値計算、金融計算 | |
decimal(固定小数点数型) | 通常は128ビットとして表され、約28桁の有効数字を持つ。 | 金融計算、税務計算 | |
文字列型 | string(文字列型) | 文字列データを表現するための型。1文字以上の文字列を格納できる。 | テキスト処理、データの表現 |
char(文字型) | 単一の文字を表現するための型。stringとは異なり、1文字だけしか格納できない。 | 文字の処理、文字列の操作 | |
ブール型 | bool(ブール型) | 真偽値(真または偽)を表現するための型。真はtrue 、偽はfalse として表される。 | 条件判断、プログラムの制御フロー |
データを保存する際の形式
データを特定の構造で表すためにデータ形式を用います。データ形式はデータの種類や性質、格納方法、処理方法などに応じて設計されます。
また、ファイル形式はデータを保存するために使用されるファイルの構造や規格です。データ形式が表現方法を指すのに対し、ファイル形式はデータを保存するための具体的なファイル形式を指します。
データ形式 | ファイル形式 | 説明 | いつ使うか |
テキスト形式 | txt | 特定の構造や書式設定を持たず、単なる文字の連続を格納する。 | テキストデータの保存 |
html | ウェブページの内容やレイアウトを定義し、リンクや画像などの要素を組み込むために使用 | ウェブページの作成 | |
xml | データの階層構造と意味を定義するためのマークアップ言語 | データの構造化 | |
画像形式 | jpeg | 静止画像を圧縮して保存する形式 | 静止画像の保存 |
png | 圧縮なしで画像を保存する形式 | 高品質画像の保存 | |
gif | アニメーションや透明な画像を保存する形式 | アニメーション画像 | |
bmp | ビットマップ画像を保存する形式 | ビットマップ画像、レトロな画像フォーマット | |
音声形式 | wav | 無圧縮の音声データを保存する形式 | 音声の録音、高音質再生、オーディオプロジェクトの制作 |
mp3 | 音楽の圧縮再生に広く使用される形式 | 音楽の保存、オーディオプレーヤーでの再生 | |
aac | 高圧縮で音声を保存する形式 | オーディオストリーミング、モバイルデバイスでの音楽再生 | |
flac | 高音質で非可逆圧縮された音声を保存する形式 | オーディオ愛好家やプロフェッショナルな音楽制作 | |
動画形式 | avi | ビデオファイルを保存するためのマルチメディアコンテナ形式 | 動画の保存、ローカルでの再生、編集や変換 |
mp4 | 動画の圧縮再生に広く使用される形式 | オンラインビデオ共有、ストリーミングサービス、モバイル再生 | |
mov | Apple QuickTime形式の動画ファイル | Appleデバイスでの動画保存や再生、映画やプロフェッショナルな映像制作 | |
wmv | Windows Media Video形式の動画ファイル | Windows環境での動画保存や再生、ストリーミング配信 |
3.データの種類
この世界には様々なデータが存在します。そして分類の仕方も様々です。
以下に分類法の一部を示しています。
アナログデータとデジタルデータ
アナログとは「情報を連続的な量として取り扱う」という意味があり、アナログデータを取り扱う身の回りの製品として、レコード、写真フィルム、ビデオテープなどがあります。
一方、デジタルとは「情報を離散値による符号として取り扱う」という意味があり、デジタルデータを取り扱う身の回りの製品として、コンピュータ、CD、DVDなどがあります。
定性データと定量データ
定性データは数値で表されない情報で、一般的にはカテゴリーや属性を表します。色、性別、国籍などがあります。分析の際にはカテゴリの分布や行動パターンの特定、数値からは読み取れないニーズの理解を得られます。
定量データは数値で表される情報で、量や大きさを表します。人口、年齢、収入などがあります。分析の際には、相関分析や回帰分析、データマイニングなどに用いることができ、モデルの作成などが可能です。
構造化データと非構造化データと半構造化データ
構造化データは定義済みの形式に整理されていて、データベースに簡単に格納できるデータです。例えば、名前、電話番号、住所などの顧客情報などがあります。
非構造化データは事前に定義された形式がなく、形式化が難しいデータです。例えば、ソーシャルメディアの投稿、電子メール、音楽、画像、ビデオなどがあります。
半構造化データはある程度の構造を持つが、厳密にはデータベースのような厳格な形式にはないデータです。例えば、XMLやJSONなどがあります。
時系列データとクロスセクションデータとパネルデータ
時系列データは時間順に収集されたデータです。気温、株価などがあります。
クロスセクションデータは特定の時間点で収集されたデータです。ある特定の日の気温、ある特定の日の株価などがあります。
パネルデータは複数の対象について、時間順に収集されたデータです。各国のGDPのように、国ごとに時間ごとのデータがある場合などがあります。
ビッグデータとスモールデータ
ビッグデータは従来のデータ処理のツールでは取り扱いが困難なほど大規模なデータです。データ分析や機械学習、パターン認識、予測分析などの目的で利用され、相応のデータストレージやツールが必要です。
スモールデータは手頃な規模のデータで、一般的なデータベースやスプレッドシートで管理可能なデータです。データの可視化、基本的な統計分析、レポート作成などの目的で利用され、一般的なデータ処理手法で処理できます。
またビッグデータに関しては、「5つのV」と呼ばれる要素が特徴を捉えるために重要な指標となります。
ビッグデータの「5つのV」
・ボリューム (Volume): ビッグデータは通常、テラバイト (TB)、ペタバイト (PB)、エクサバイト (EB)といった桁の大きなデータ量を扱います。
・多様性 (Variety): ビッグデータは、様々な形式や種類のデータが混在しています。
・速度 (Velocity): ビッグデータは、高速かつリアルタイムに生成・収集が求められます。
・正確さ (Veracity): ビッグデータは、データ品質の問題に直面することがあるため、データクレンジングや品質管理の取り組みが求められます。
・価値 (Value): ビッグデータから得られる情報や洞察を適切に分析・解釈することで、新たなビジネスチャンスや効率改善の機会を見つけることができます。
フローデータとストックデータ
一言で言えばこれら二つの違いは「期間の値」と「時点の値」です。
フローデータは特定の期間内においてどれだけ変化したかを表すデータです。例として1日間の売上、7日間の歩数、10年間で伸びた身長などが挙げられます。
ストックデータはある時点においての状態を表すデータです。例としてレジ締めをした時の売上、歩数計を見たときの歩数、高校卒業時の身長などが挙げられます。
フローデータとストックデータは取得のタイミング、期間で分類されるものであるため、タイミングによってはフローデータとストックデータが同じ数字にも成り得ます。
バイナリデータとテキストデータ
バイナリデータは0と1で構成されるデータのことです。これはコンピュータが読むためのデータです。
これと対比してテキストデータが挙げられます。これは、0と1以外の文字で表されたデータであり、人間の読む文章などが該当します。
しかし2章冒頭で述べたように、データは全て「”0”または”1”で表された2進数」です。そのためテキストデータもコンピュータ上では2進数で表されるので、厳密にはバイナリデータの一部となります。
ただ一般的なデータの種別方法でバイナリデータとテキストデータが存在することは覚えておいた方が良いと思います。
また、テキストデータ以外にも音声データや画像データ、映像データなどもすべてバイナリデータで表されています。
4,まとめ
「データ」は私たちの日常生活から企業の戦略立案まで多岐に渡って利用され、現代のビジネスやテクノロジーの世界で重要な情報であることには違いありません。データを管理・活用することが日常生活を豊かにし、企業の戦略立案を確かなものにし、競争力を向上させることの鍵となります。
データの管理・活用でお困りの場合はデータビズラボへお問い合わせください。
状況やニーズに合わせた様々なサポートをご提供いたします。
コメント