分布の話がなぜ偏差値の解説になったのか、疑問に思われた方も多いことでしょう。
実は、偏差値が意味を持つためには母集団(対象となるデータの集まり)が正規分布していることが前提となります。一般に、試験の成績(点数)は同じ学年であれば、身長や体重の値と同じように正規分布します。
ある県に、来年高校を受験する予定の中学生が5万人いて、そのうち1,000人が模擬テスト(模試)を受けたとします。
模試の結果から知りたいのは「この成績で○○高校に受かるかどうか」ということです。しかし、5万人の受験生のうちのわずか1,000人分のデータで何が分かるというのでしょう。
結論から言えば、「この成績で○○高校に受かるかどうか」はかなり正確にわかります。
全受験生5万人の成績は正規分布していると考えられます。模試を受けた1,000人はその中からランダムに選ばれたものとすれば、偏差値を計算することで「この成績なら○○高校に受かる可能性は80%」と判断することができます(正規分布の性質については参考サイトを参照してください)。
試験の成績に限らず、世の中のあらゆる現象は正規分布に従ってばらついてると考えられます。ですから、少ないデータ(サンプル)で全体(母集団)を推測することができるわけです。
ただし、正規分布以外にも分布の形は多数あります。正規分布によく似ている「t分布」や、似て非なる「べき分布」のほか、二項分布、指数分布、ポアソン分布、β分布・・・数えればきりがありません。
様々な現象には、それぞれに適した形の分布があるということです。したがって、何でもかんでも正規分布を前提にすれば良いというわけではありません。
とは言え、その中でも正規分布はやはり「ダントツに見かける」形であると言えます。
仕事の中で、バラツキがあるデータを扱うときに、この裾野が広がっている山のような形を思い出してみてください。
参考:
http://www1.meijigakuin.ac.jp/~iwamura/class/2007/e_statistics_a/ele_stat1_note_chap5.pdf
(人材育成社)