皆様、こんにちは。
13期生の岩田です。
最近はビッグデータをはじめ、統計に関する話題を目にすることが多くなってきました。
鴨志田先生が発起人にひとりと伺っているビジネスデータ分析研究会などもありますね。
私は統計の専門家ではありませんが、仕事で少し使っているため
統計データの扱いで陥りがちな事例をひとつ紹介したいと思います。
題名はおおげさにしてしまいましたが、よく計算される比率について、なんでも数値で示されたからといって
盲目的に信用することはできず、データを取った背景を把握しないといけない、といった内容です。
ある薬物と病気に因果関係があるか調べた調査です。
病気患者90人と健常者100人について摂取経験を調査したところ下表のデータが得られたとします(架空のデータです)。
病気患者 | 健常者 | 合計 | |
薬物摂取者 | 85 | 60 | 145 |
薬物非摂取者 | 5 | 40 | 45 |
合計 | 90 | 100 | 190 |
ここで
①【薬物摂取者における病気患者の比率】 = 85/145 = 0.586
②【薬物非摂取者における病気患者の比率】 = 5/45 =0.111
と計算して0.586と0.111の大きさを比べたくなるかもしれません。
しかし、このような比率は誤りであり、意味が無い数値を計算しています。
理由はあとまわしにして、ここで意味のある比率は以下です。
③【病気患者における薬物摂取者の比率】 = 85/90 = 0.944
④【健常者における薬物摂取者の比率】 = 60/100 = 0.600
この違いがわかりますでしょうか。
なぜ、前者の比率が誤りかというと、データの取り方にポイントがあります。
最初に「病気患者90人と健常者100人について摂取経験を調査した」とあります。
因果関係を明確に意識してください。
ここでは薬物が原因で結果として病気になるかを知りたくて調査を試みました。
そこで、「結果」である病気患者と健常者のうち、どれくらい薬物を摂取しているかを調べています。
しかし、これだけですと前者の比率が間違っていることがわかりにくいと思います。
そこで、健常者のサンプルリング数が上記の10倍の1000人取れたとします。
すると以下のようなデータが得られます。
病気患者 | 健常者 | 合計 | |
薬物摂取者 | 85 | 600 | 685 |
薬物非摂取者 | 5 | 400 | 405 |
合計 | 90 | 1000 | 1090 |
①、②と同様に計算すると
⑤【薬物摂取者における病気患者の比率】 = 85/685 = 0.124
⑥【薬物非摂取者における病気患者の比率】 = 5/405 = 0.0123
となります。これは①、②と数値が異なり、かなり小さくなりました。サンプル数が大きくなったり、小さくなったりすると変わる比率の数値には意味が無いことを
理解していただけるのではないでしょうか。
③、④と同様に計算すると、当然ながら
⑦【病気患者における薬物摂取者の比率】 = 85/90 = 0.944
⑧【健常者における薬物の摂取者の比率】 =600/1000 = 0.600
と同じ数値(通常は同程度の数値)が得られるので意味がある数値というわけです。以上のような例は他にも
・製造機A、Bが良・不良品を製造する場合
・作業者a、bが1級品・2級品を製造する場合
など色々な場面で使われる考え方です。
データの取り方について把握しておかないと、データから推定することができないものを
計算してしまう場合があることを理解していただければ幸いです。