裏 RjpWiki

Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学

サンプルサイズが多いと有意になりやすいからネェ...

2014年08月16日 | 統計学

ごもっとも。しかし,その陳述の妥当性は「...」の内容によりますね。

p1=0.12, p2=0.08 の片側検定なら,検出力を幾つに設定するかによって,「統計学的に有意な差である」というために必要なサンプルサイズは図のようになる。

普通は検出力を 0.8 にすることが多いので,700 人ずつということになる(そもそも p1=0.12, p2=0.08 なんだから,700 人ずつになるわけはないけど)。

http://aoki2.si.gunma-u.ac.jp/R/power_prop_test2.html によれば,

> power.prop.test3(Pc=0.08, Pt=0.12, r=2/3, sig.level=0.1, power=0.8)
      Nc       Nt
585.1472 877.7208
 
となるのかな?

この結果を逆に言えば,700 人ずつ以上のサンプルを集めてしまうと「そりゃあ,サンプルサイズが大きいからでしょ」ということ。別の言い方をすると,「700 人の時点で有意かどうかをいえば十分」ということ。ビッグデータなんか要らないということ。そもそも,統計学はデータは独立でなくてはならない。同じ人が何回もカウントされるというのは想定していない。本当に厳密な答えが必要ならば,「700 人ずつの,独立 2 標本を用意し,標本比率を観察して,検定すればよい」ということに尽きる。

ビッグデータが既にある。サンプルサイズは両方合わせて数万。だったら,検定などやらなくてよい(まあ,検定に費用が掛かるわけではないので,念のために計算はしておこう)。母比率の差がどれくらいで,その差がどれくらいの利益に相当するかだけをみればよい。

選挙の場合は最後の 1 票まで,正確な得票数を出す必要があるけど,上のような場合には逐次的に検定を行って,統計学的に差があることがわかったらさっさと調査を打ち切ればよい。ビッグデータになるまで待つ必要はない(「放っておいたら集まってしまうんですよ」というならしょうがない)。

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

PVアクセスランキング にほんブログ村

PVアクセスランキング にほんブログ村