基本統計量とは、データの分布の特徴を記述したり要約するために必要な指標のことです。「要約統計量」や「記述統計量」と呼ばれます。
基本統計量を確認することでデータの基本的な性質を知ることができるため、データ分析する際に重宝されます。
また、データ分析そのものについて知りたい場合は以下の記事をご参照ください。
目次
基本統計量とは?
基本統計量とはデータの基本的な性質を表す指標です。
一般的なものは以下です。
- 代表値(そのデータ全体を表す値):最小値、最大値、中央値、最頻値、平均値
- 散布度(データの散らばりを表す値):範囲、分散、標準偏差、歪度、尖度
それぞれ分類ごとに解説します。
統計データ可視化を成功させる95のチェックリストをダウンロードする
1.代表値(そのデータ全体を表す値)
小テストの点数のデータを使って解説します。
1-1.最小値(minimum)
最小値とはそのデータの中で最も小さな値のことです。
1-2.最大値(maximum)
最大値とはそのデータの中で最も大きな値のことです。
1-3.中央値(median)
中央値とはそのデータの真ん中の値を指します。データの個数が奇数の時、データのちょうど真ん中の値になり、データの個数が偶数の時、データの真ん中にある値2つの平均値になります。
1-4.平均値(mean)
平均値とは、全ての値を足して要素の数で割ったものです。
1-5.最頻値(mode)
最頻値とはそのデータの中で最もよく出現する値のことです。以下のデータの場合、2回出現している9点と16点が最頻値となります。
2.散布度(データの散らばりを表す値)
2-1.範囲(range)
範囲は最大値から最小値を引いた値です。以下ですと、21(点)‐1(点)=20(点)が範囲です。
2-2.分散(variance)
分散は平均値からの散らばり具合を把握できるものです。データの散らばりが小さいほど分散は0に近づきます。
平均値とそれぞれの値の差(偏差)を求め、偏差を2乗した値を足し合わせた平均値が分散です。式にすると、以下の通りです。
分散={(X₁‐平均値)²+(X₂‐平均値)²…(Xn‐平均値)²}/n
このX₁,X₂というのはデータの要素で、1つめのデータ、2つ目のデータ、ということをそれぞれ表しています。nはデータ全体の要素の数を表しています。Xnはn個目のデータ、つまり一番最後のデータを意味しています。
2-3.標準偏差(standard deviation)
標準偏差も分散と同様にデータの散らばり度合いを表す値です。
標準偏差と分散の関係は下記のように表されます。
(標準偏差)²=分散
分散の平方根が標準偏差です。
2-4.歪度(わいど・skewness)
歪度は正規分布に対して横にどれほど偏っているかを表す数値です。
正規分布とはガウス分布とも呼ばれ、標準的な確率分布です。
▼正規分布の図(歪度=0の状態)
歪度と後述する尖度は、この基本となる分布に対して横方向・縦方向にどれほど偏っているかを表す値です。
正規分布に対して頂点の位置が左によっていたり右によっていたりということが歪度によってわかります。左に偏った分布の場合歪度は正の値を、右に偏った分布の場合歪度は負の値をとります。
2-5.尖度(せんど・kurtosis)
尖度は正規分布に対して縦にどれほど偏っているかを表す数値です。
正規分布において尖度は3です。この値を基準に尖度が3より大きいか小さいかでその分布がどれほど尖っているのかを判断します。
-
尖度-3>0 のとき、分布の山は高く、尖った帽子のような分布になります。
-
尖度-3<0 のとき、分布の山は低く、ゆるやかでなだらかな分布になります。
※正規分布の尖度を0とする場合もあります。その場合には尖度が正のときに分布は高く尖った曲線を描き、尖度が負のときに分布はゆるやかな曲線になります。
3.まとめ
基本統計量をおさえたら、次はデータ分析の手法の学習がおすすめです。
以下の記事でも、詳しい解説をしています。
データの管理・活用でお困りの場合はデータビズラボへお問い合わせください。
データビズラボでは状況やニーズに合わせた様々なサポートをご提供いたします。
また、当社では、基本統計量はもちろんのこと、厳しい研修を経た講師たちによるクオリティの高いデータ分析・可視化研修も提供しています。
コメント