鳥!連続写真!掲載中!

近くの多摩川に飛来する野鳥の連続写真を中心に、日頃感じた出来事を気ままな随想でご紹介し、読者双方との情報を共有したい。

代表値と散布度

2014年05月12日 00時00分01秒 | 紹介

 度数分布表を作成し、全体の分布状態を調べることは非常に重要であるが、そのままの状態では取り扱いに不便なことが多いため、全体の様子を知るには分布の特徴を表す1つの数値(代表値)を用いる。代表値としては、平均値が最も多く用いられるが、メジアン(中央値または中位数)やモード(最頻値または並み数)も用いられる。

  平均値は平均とか相加平均といい、データ総量を個数で除したものである。合理的な一面もあるが、不適当である場合がある。例えば少人数の村落の平均所得を調べるときに、大富豪が1人いるだけで全戸が富裕層となるなどである。

  メジアンは、資料の変量を順に並べるとき、その中央にある資料の変量の値をいう。個数が奇数の時と偶数の時があるが、奇数ならば個数に1を加えて2で割り算すればよく、偶数ならば個数を2で除した値(変量)に1を加えた番目の平均の値をメジアンとする。メジアンは中央に属するものの大きさだけが問題となり、他の大きさに影響しないことが問題であるが、手数が簡単に済むという便利さがある。例えば、クラスの身長のメジアンは中央に来る者の身長を測ればよい。

  モードは度数の最も多い変量の値のことで、全体を代表するという点では合理性を欠くが、簡単に求められることや、調査内容によっては有意義なことも多い。例として、議事の賛否を多数決によって決めることなどである。また、桜の花弁を調べて花びらの代表値を調べるにはモードを使う。

 調査や観測の結果は、平均値などの代表値によってその大体の様子を知り得るが、資料の特徴を表すには不十分である。資料が代表値の周りにどのように散らばっているかを知ればもっと状態が良く理解できる。資料の散らばり度合いを示す数値を一般に散布度という。散布度には、範囲、分散、標準偏差などがある。

  範囲とは変量の最大値と最小値の差である。これは求めやすいが、例外的に変量の値に大きく左右されるから、散布度としてはあまり適当ではない。分散は平均値からの偏差(データと平均の差)の平方の平均(偏差の二乗の平均)をいい、分散の正の平方根(ルート)を標準偏差という。散布度としては標準偏差が最も良く用いられる。

  偏差は各資料(データ)の平均からの偏りを示す量であるから、散布度はその偏差の代表値を求めればよいと考えられるが、単に偏差の平均を求めては、正負の偏差が相殺されて0(零)となり、意味を成さない。そこで、散布度として偏差の絶対値の平均(平均偏差)が考えられるが、これは計算上複雑となり、偏差の二乗の平均である分散が考えられた。しかし、この分散では変量とディメンション(次元)が異なるのでその正の平方根を取って標準偏差としたわけである。