Q2・5「データを統計処理するのが一般的とのことですが、そこではどんな考えでどんなことがなされているのですか」---統計処理
統計処理をする前提に、まず、データそのものが統計処理に値するかどうかが問われます。
統計処理をするデータは、まず、「大量であること」が必要です。
たくさんの人ということもありますが、かりに一人についてのデータであっても、何度も反復して測定してたくさんのデータがあれば、統計処理の対象になります。
そして、それらのデータ値が、「変動している」必要があります。すべてが同じ値では統計処理は不要です。
たとえば、この2つの条件を満たすデータとしては、
・1クラスの生徒の数学試験の成績
・3千人程度を選んで行なう世論調査の結果
・受講名簿から無作為に選んだ被験者20名を使った実験の結果
その統計処理には、大きく3つあります。
一つは、記述統計と呼ばれている処理です。
データのちらばり(分布)の傾向を記述するための指標の計算です。分布の代表的な値を示す平均、平均の周りの散らばりの程度を示す標準偏差がよく指標として使われます。
たとえば、おなじみの偏差値。(学校からは追放されてしまいましたので「おなじみ」ではないかもしれませんが)。
一人一人の成績を、平均からの差をとり、標準偏差で割って、10倍してさらに50を足したものです。偏差値50が丁度真ん中、60はそれ以上の上位に16%の人がいることがすぐにわかる勝れた指標です。
2つは、多変量解析と呼ばれている処理です。
たとえば、200名の高校生の自己意識について調べたいとします。関連する50個の調査項目を用意して、それぞれについて、自分に当てはまるかどうかの3段階評定をしてもらったとします。ある項目に3と答えた人は、別の項目には1と答える傾向があるかどうかなどをすべての項目対についてまず計算します。この項目間の関連度から、50項目間相互の関係を探り出し、その中で、200名の高校生の自己意識を記述します。50項目それぞれについて記述するよりもシンプルに記述できるようにするのが、多変量解析のねらいです。ややわかりにくい説明になっていますが、心理学では、多用される手法です。Q2・9に研究例を一つ示しましたので参照してください。
もう一つは、推測統計と呼ばれている処理です。
そのデータから、そのデータを生み出したもともとの仮想的なデータ集合(母集団)ではどうなっているのかを推論するための計算です。
たとえば、3千人のサンプルで行なった世論調査のデータから首相の支持率が60%と出たとします。それは、日本の有権者全体(母集団)の支持率(母比率)ではありません。一定の誤差を含んだ母比率の推定値です。
ただし、推測統計処理が行なわれるデータには、「大量」「変動」に加えてもう一つ、データが母集団からの無作為(ランダム)に抽出されているという前提条件を満たす必要があります。
こうした統計処理が、なぜ、心理学で使われるのか不思議に思われるかもしれません。
それは、心理学で集めるデータの多くが、「大量で」「変動していて」「変動が偶然」だからです。このままでは、どうにもなりません。サイエンスなら普遍性が求められます。統計処理が必要な一番の理由は、この普遍性志向です。
「数学の成績はみんな違う」という記述をしても、当たり前過ぎて、サイエンスにはなりません。「全体の中心(平均)はこのあたりで、それと比較して自分の成績はどれくらい」ということができれば、より普遍的な記述になり、サイエンスに近づいてきます。
さらに、「指導法の異なる2つのクラスの成績を比較したい」としたらどうなるでしょうか。2つのクラスの40個ずつのデータをずらっと並べても、どうやって比較したらよいか途方にくれてしまいます。それぞれのクラスの平均を計算するば、一目瞭然で高低がわかります。このシンプルさこそ、サイエンスが求める普遍性志向に他なりません。
なお、、統計処理は万能ではありません。あくまで、一つの方策に過ぎません。統計処理とは真っ向から対立する立場の心理学、たとえば、質的分析に基づく心理学も定期的に雑誌を出したりして次第に力を付けつつあります。
***************
心の実験室「統計処理を体験してみる」
1)次の2組のデータについて、その違いをできるだけたくさん指摘してください。
データセットA 6 2 9 8 1
データセットB 4 5 3 5 3
2)平均と標準偏差を、データAの計算方法にならって<データBについて計算して比較してください。
データA ○平均の計算
6+2+9+8+1=26 26/5=5.2(平均)
○標準偏差の計算
(6-5.2)**2乗+(2-5.2)**+(9-5.2)**+(8-5.2)**+(1-5.2)** =10.2
10.2**平方根=3.2(標準偏差)
データB ○平均
○標準偏差
「解説」
データをどのように見るかは、そのデータが何から得られたもので、そこから何を知りたいかに依存します。
たとえば、縄跳びの持続時間(分)のデータだとします。そして、クラス代表を3人決めるためのデータだったとしたらどうでしょうか。これなら、最も単純な統計処理である、順序化(大きい値の順に並べる)で済みます。
あるいは、5人参加の縄跳びゲームの勝利チームを決めるためのデータだったらどうでしょうか。これなら、どちらの平均値(合計数でも勝ち負けは同じ)が大きいかで決めるでしょう。
あるいは、2人が5回投げて的に当てるゲームで得られた、中心からの距離のデータだとします。どちらに軍配を挙げるかとなると、平均値(合計値)の小さいほうを勝ちとするのがよさそうです。