正規分布は、統計学の初学者や統計検定2級の取得を目指す方が押さえておくべき基本的な概念の1つです。正規分布を学ぶことで、推定や検定といった統計解析の基本を理解することができます。
本記事では以下のポイントに関して、数学に苦手意識のある文系の方にもわかりやすく解説していきます。
- 正規分布の縦軸と横軸の意味
- 正規分布する事象
- 正規分布の形
- 正規分布におけるデータの分布
※データビズラボでは、採用に力を入れています。現在、多数の応募をいただいておりますので、もし気になる方はお早めに!
1.正規分布の基本的な特性
正規分布とは平均値と最頻値・中央値が一致し、それを軸として左右対称となっている確率分布です。
※確率分布については1-1でご説明します。
1-1.正規分布は確率分布の1種である
確率分布は、縦軸に「ある事象がそれぞれの値になる確率」、横軸に「ある事象が取り得る値」を取る分布です。確率分布が持つ基本的な性質は以下です。
- 面積を求めることで、確率が求められる
- 全体の面積は1である
例えばある学校で実施されたテスト結果が正規分布すると仮定します。ランダムに選んだ生徒Aが25点以上75点以下である確率は青く塗りつぶした部分の面積を求めることでわかります。
1-2.正規分布する事象としない事象
「自然に生じる誤差や個体差」は正規分布になることが多いです。例えば人間の身長や、雨粒の大きさ、工業製品の規格誤差などが正規分布すると言われています。人間の身長はもちろん人によって変わりますが、ある一定の範囲内に多くのデータが集まり、50cmや300cmといった極端な値は存在しません。
※ギネス記録の最も低い身長が73cm、最も高い身長が251cm
出典:厚生労働省(2019)「令和元年国民健康・栄養調査報告」CDC (2021), “National Center for Health Statistics: Vital and Health Statistics”
加えて、平均値に対して左右対称であるという点が重要です。収入は正規分布しそうなのにしていない分布の代表例です。マイナスの収入というものは存在しないため、いわゆる右に裾が長い分布になっています。
引用:厚生労働省HP
統計データ可視化を成功させる95のチェックリストをダウンロードする
2.正規分布の形
正規分布はそのデータが持つ平均値や標準偏差によって下の図のように様々な形になります。ただ、左右対称や平均値と最頻値・中央値が一致するといった基本的な性質は変わりません。
正規分布と聞いて多くの人が思い浮かべる下の図は、標準正規分布という正規分布の1種です。平均値=0、標準偏差=1という条件を満たしています。そのため、決して全ての正規分布がこの形になるわけではありません。
2-1.正規分布が規定する歪度
歪度はグラフの横方向の歪みを測る指標で、正規分布が基準になっています。歪度が大きければ大きいほど左に偏った分布となります。正規分布の歪度は0だと定義されています。
3.正規分布におけるデータの分布
正規分布では以下のようにデータが分布しています。
この性質は、平均値や標準偏差がどれだけ変化しても変わりません。そのためある事象が正規分布している場合、平均値と標準偏差さえわかればどの区間にどれくらいのデータが存在しているかすぐにわかります。
具体例として、人間の身長を考えてみましょう。日本人の成人男性の身長が平均170cm、標準偏差10cmの正規分布であると仮定します。そうすると、身長150cm以下の人は全体の5%未満であると正規分布の性質からすぐにわかります。
4.まとめ
正規分布は様々な特性があり、今回は初学者向けに押さえておくべき基本的な性質に関してご紹介しました。
本記事で正規分布に興味をお持ちいただいた方は、是非中心極限定理や区間推定、有意水準など正規分布と深い関わりがあるより専門的な用語についても学習してみてください。
また、本記事をご覧になりデータや統計学の領域で働いてみたいと思った方は是非下のボタンからご応募ください。大学生向けに長期インターンも募集しています。
コメント