2013年4月5日のブログ記事一覧-裏 RjpWiki

もう，ほっ統計ない！ -- 週刊ダイヤモンド 2013/3/30

2013年04月05日 | 統計学

45 ページの図。こんな図は派手だけど，困るなあ。

死亡者の数値を描いてある位置も恣意的だし。

二軸のグラフは二軸目の目盛りをどのように目盛るかでも印象が変わったりするし。

原点から始めてもらわないと。

統計！，統計！！というなら，ちゃんとやろうよね。

頑張ってます。クリックお願いします。

なぜ統計学が最強の学問なのか--週刊ダイヤモンド 2013/3/30（5）

2013年04月05日 | 統計学

標準誤差

標準偏差（SD）とは，平均値に対する観測データのばらつきを表すが，標準誤差（SE）は，母集団の散らばりを表す。

---------

標準誤差についての説明は，全くのでたらめです。

標準誤差とは「母集団から標本を抽出し，標本（データ）の集計によって得られる統計量（標本平均とか，標本比率とかなんでも）のバラツキを表すもの。標本統計量の標準偏差を特に標準誤差という。例えば，標本平均の標準誤差は，「母分散/サンプルサイズ」の平方根である。」

対談者が「サンプリングの話でいうと，先ほど平均値と中央値の話をしましたが，『標準誤差』を一緒に把握しておく必要があります。平均点70点で標準誤差20点の人と，平均70点で標準誤差がほぼゼロという人ではまったく異なる人です。ただ，統計学を知らない人に説明する場合，標準誤差になるといきなり理解度が下がりますね。」と語っているのだが，そっくりそのままノシを付けてお返し申し上げたい。対談者がいっているのは，同じ能力を持つ人でも，発揮される能力にバラツキの大きい人と小さい人がいるというのだから，そのバラツキは，標準偏差のことである。

標準誤差が何の役に立つかと言えば，例えば，標本平均は母平均の推定値として使える（標本平均≒母平均）わけだけど，計算される標本平均は実際に母集団から抽出されるデータによって変わるし，データの大きさ（サンプルサイズ）によっても精度は変わる。

標本について言えば，母集団が正規分布に従うならば，標本平均±2×標本標準偏差の範囲には，標本のほぼ 95% が含まれることになる。

これと同じで，標本を抽出し標本平均を計算し，その標本平均を記録する。これを数万回繰り返し，その数万個の標本平均をデータと見なして標準偏差を計算するとその標準偏差が標準誤差にほぼ等しくなるだろう。そして，標本平均±2×標準誤差の範囲には95%くらいの標本平均が含まれるだろう。この区間を，母平均の信頼区間という。母平均の信頼区間は，このようなこと（標本抽出をして，標本に基づいて信頼区間を計算する）を繰り返すと，100回のうちほぼ95回は計算された信頼区間に母平均が含まれるということである。

標本平均で母平均を推定するのが点推定。

母平均を区間で推定するのが区間推定。

これと同じ考え方で，「標本統計量/標準誤差」の大きさで母数についての推測を行うのが，検定。

具体例

母平均値=0，母分散=1の正規分布に従う無限母集団から，標本の大きさ（サンプルサイズ）が 20 の標本を抽出する。標本平均を計算する。
これを，1000000 回行い，1000000 個の標本平均の平均値と標準偏差を求める。

> # このブログの都合で，代入記号に = を使う。よい子はまねしない。
> Means = colMeans(matrix(rnorm(20*1000000), 20))
> (m = mean(Means)) # 0 に近い値のはず
[1] -4.836502e-05
> (s = sd(Means)) # 1/sqrt(20) ≒ 0.2236068 に近い値のはず
[1] 0.2235299
> mean(Means = m+2*s) # 0.05 に近い値のはず
[1] 0.045334

頑張ってます。クリックお願いします。

なぜ統計学が最強の学問なのか--週刊ダイヤモンド 2013/3/30（4）

2013年04月05日 | 統計学

クロス集計

与えられたデータのうち，複数の項目を掛け合わせてデータ分析を行うこと。クロスさせるデータに上限はないが，増えすぎるとサンプル数が減ってしまう。

-----

クロス集計というのは文字通り「集計」で，まだ「分析」までは行かないだろう。

「複数の項目を掛け合わせて」というのは，複数の変数を対象にして（クロスさせて）ということだろう。前に述べた「分割表」を一般的には「クロス集計表」と呼ぶ人が多い。

一番簡単なのは，二重クロス集計。二次元の度数分布表を作るということ。前に述べた，四分表は更に単純な場合（2行2列しかない）。行方向に一方の変数のカテゴリー（カテゴリー変数でない連続変数の場合はカテゴリー化して使用），列方向にもう一方の変数のカテゴリーをとり，それぞれのカテゴリーに該当するデータ数を数え，セルに記入する。期待値や行方向・列方向のパーセントを付けたりもする。

Excel のピボット関数（？）でも集計できるだろう。

　二重クロス表の例

　三重クロス表の例

「クロスさせるデータに上限はない」というのは，「クロスさせる変数の個数に上限はない」ということだろうか。3変数について3重クロスをすれば，3次元の度数分布表になるが，まあ，紙に印刷して提示するためには，二次元にして表示することになる。以下，n変数についてのn重クロスも同じことである。
あるいは，次とも関連するが，変数のカテゴリー数のことか？もともとカテゴリー数がほどほどのカテゴリー変数ならよいが，連続変数をカテゴリー化してクロス集計を使用として，階級幅を狭くする（結果として，カテゴリー数が大きくなる）とか，そもそもカテゴリー数が大きいと，集計結果が入る延べのセルの数が大きくなるので，必然的にセルあたりのデータ数が少なくなるというような，次の項のようなことが生じる。

「上限はないが，増えすぎるとサンプル数が減ってしまう」これは，集計表のセルに該当するデータの個数が少なくなってしまうということ。
「サンプル数」という言葉も微妙。

頑張ってます。クリックお願いします。

記事一覧 | 画像一覧 | フォロワー一覧 | フォトチャンネル一覧

PVアクセスランキングにほんブログ村

プロフィール

フォロー中フォローするフォローする

バックナンバー

2025年03月

2025年02月

2025年01月

2024年12月

2024年11月

2024年10月

2024年09月

2024年08月

2024年07月

2024年06月

2024年05月

2024年04月

2024年03月

2024年02月

2024年01月

2023年12月

2023年11月

2023年10月

2023年09月

2023年08月

2023年07月

2023年06月

2023年05月

2023年04月

2023年03月

2023年02月

2023年01月

2022年12月

2022年11月

2022年10月

2022年09月

2022年08月

2022年07月

2022年06月

2022年05月

2022年04月

2022年03月

2022年02月

2022年01月

2021年12月

2021年11月

2021年10月

2021年09月

2021年08月

2021年07月

2021年06月

2021年05月

2021年04月

2021年03月

2021年02月

2021年01月

2020年12月

2020年11月

2020年10月

2020年09月

2020年08月

2020年07月

2020年06月

2020年05月

2020年04月

2020年03月

2020年02月

2020年01月

2019年12月

2019年11月

2019年09月

2019年08月

2019年07月

2019年06月

2019年04月

2018年12月

2018年09月

2018年08月

2018年07月

2018年06月

2018年05月

2018年03月

2018年02月

2018年01月

2017年12月

2017年11月

2017年10月

2017年09月

2017年08月

2017年07月

2017年06月

2017年05月

2017年04月

2017年03月

2017年02月

2017年01月

2016年12月

2016年11月

2016年10月

2016年09月

2016年08月

2016年07月

2016年06月

2016年05月

2016年04月

2016年03月

2016年02月

2016年01月

2015年12月

2015年11月

2015年10月

2015年09月

2015年08月

2015年07月

2015年06月

2015年05月

2015年04月

2015年03月

2015年02月

2015年01月

2014年12月

2014年11月

2014年10月

2014年09月

2014年08月

2014年07月

2014年06月

2014年05月

2014年04月

2014年03月

2014年02月

2014年01月

2013年12月

2013年11月

2013年10月

2013年09月

2013年08月

2013年07月

2013年06月

2013年05月

2013年04月

2013年03月

2013年02月

2013年01月

2012年12月

2012年11月

2012年10月

2012年09月

2012年08月

2012年07月

2012年06月

2012年05月

2012年04月

2012年03月

2012年02月

2012年01月

2011年12月

2011年11月

2011年10月

2011年09月

2011年07月

2011年06月

2011年05月

2011年04月

2011年03月

2011年02月

2011年01月

2010年09月

2010年08月

2010年07月

カレンダー

2013年4月
日	月	火	水	木	金	土
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

前月

次月

goo blog お知らせ

	【PR】プロ直伝・dポイントをザクザクためる術
	【PR】安い＆大量の「訳あり商品」がヤバい！
	【コメント募集中】自宅で「蛍光灯」を使っていますか？
	訪問者数に応じてdポイント最大1,000pt当たる！
	dポイントが当たる！無料『毎日くじ』