こんばんは、西村です。
先日、統計解析の入門講座に参加してきました。
正直、統計解析に関しては、大学時代に少しかじった程度でよく理解しておりませんでした。
現在勤務する会社でも非常に多くのデータを使いますので、仕事の役に立てばいいな、という
気持ちと、自己投資の意味も込めての参加でした。
テクニカルな点が多くありましたが、「入門」という観点で理解が深まった点を紹介いたします。
・統計解析は「手段」であって、「目的」ではない
講師の先生曰く、「統計解析はものすごいことができるわけではないです」とのこと。
中には「すごいことができる」と思っている人が結構多いらしいです。
しかし統計解析はあくまで手段であって、できることは
①データの分布を明らかにする「現状分析」
②バラツキをもたらす原因を解明する「要因分析」
の2つです。
この点を取り違えると、手法に振り回されてしまうので、目的別に使い分けることが必要になるそうです。
・現状分析の特徴
データ分布を明らかにする現状分析は、データの「中心」、「バラツキ」、「範囲」を表すことだそうです。
中心の傾向は「平均値」、バラツキの大きさは「標準偏差」、分布の範囲は「平均値±標準偏差」であらわせる。
ちなみに、分布の範囲は全データの70%が含まれるという性質があるそうです。
・要因分析の特徴
要因分析の基本は「違いは何か?」を見つけることで、それは「比較」しないと分からない。
この比較を忘れやすいそうです。
例)購買分析
ある商品を買う要因を「購入者」に着目して分析する場合
「買った人」と「買わなかった人」の特徴を「比較」しないと、「違い」はわからない
・平均値、標準偏差と中央値を使う前提
よくデータ分析には平均値と標準偏差が用いられるが、この値を使う前提にはそのデータが
「正規分布に従うこと」がある。
逆に「正規分布に従わないデータ」で平均値を求めても意味がなく、その場合「中央値」を使う必要がある。
例)
正規分布に従うデータ :サイコロを無限に転がした時の出目の数(3.5に近づく)
正規分布に従わないデータ :大学で「理系」と「文系」の違いによる年収額
知っている人には非常に基本的でわかりきったことかもしれませんが、私にとっては改めてデータというものに
向き合う時の基本的な考えを学べる有意義な講座でした。
興味が沸いたのでもう少し統計解析について勉強してみようと思います。
できること・できないことを把握した上で、目的に合わせて活用することが大事なのですね。