統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

統計のコツのこつ(9)

2016-07-30 18:16:32 | 日記・エッセイ・コラム
このブログは「すぐに役立つ統計のコツ」(オーム社)で書き足らなかった事柄を書いています。したがって、やや専門的になっているかも知れませんが、なるべく役立つコツを平易にと心がけています。
 
それでは、前号に引き続き「すぐに役立つ統計のコツ」第4章(39ページ)を開いて下さい。
 
 
本書の39ページには、等分散(バラツキが等しいかどうか)を調べる方法として、「Leveneの検定」(レーベンの検定又はルビールの検定と言う、H. Levene )を例題で示しています。本書の例題4の結果は等分散として一元配置分散分析表(表4.8)の結果ですが、本当に等分散でしょうか。
39ページの「Leveneの検定」をみれば「p=0.9381>α=0.05」から等分散と判断されます。

この「Leveneの検定」は平均値(mean)について調べものでLeveneのオリジナルな方法です。
もし、
正規分布でない標本の場合は、よりロバスト(頑健)な中央値(median)を用いる方法もあります。データ解析環境「R」でのLeveneのデフォルトはmedianになっています。
その他に、
等分散の検定には「Bartlettの検定」(M.S. Bartlett)などいくつかの方法があります。
 
 
 
「すぐに役立つ統計のコツ」では取り上げていない「Bartlettの方法」を示しておきます。
 
Excel による Bartlettの計算
 
図1 計算手順(1)
 
 
 
 
図2 計算手順(2)
 
 
図3 計算手順(1)(2)のExcel関数式一覧
 
 
 
次回は、
「すぐに役立つ統計のコツ」から第5章の「比率の差を比較する(クロス集計)」についてご紹介します。
 
 
 
本書の例題(データ)は下記の情報統計研究所(HP)からダウンロード出来ますのでご利用下さい。
 
情報統計研究はここから
 

統計のコツのこつ(8)

2016-07-26 12:43:18 | 日記・エッセイ・コラム
このブログは「すぐに役立つ統計のコツ」(オーム社)で書き足らなかった細かな事柄を載せています。本書の副読本的に読んで頂ければ幸いです。
 それでは、
本書の「第4章 3つ以上のデータの差を比較する」(29ページ)を開いて下さい。
 
 
本書の例題(データ)は下記の情報統計研究所(HP)からダウンロード出来ますのでご利用下さい。
 
 
本書の第4章では、多重比較について説明しています。多重比較とは、例えば、A・B・Cの各群について、その平均値の差をA:B、A:C、B:Cの組み合わせで検定する事です。各2群間で検定を繰り返し行えば良さそうなものですが、そうすると
有意水準α=1-(1-0.05)×(1-0.05)×(1-0.05)=0.1426 となり、全体での有意水準α>0.05となってしまいます。
この不都合を調整するのが多重比較です。もし、査読者から「多重性を考慮していない」などの指摘を受け、対比較(2群間の繰り返し)の正当性を説明できないなら多重比較に改めるべきです。最近の商用統計ソフトには色々な多重比較の方法が選択出来る様になっています。
どの多重比較の方法を用いるべきか・・・、悩む様であれば、本書で紹介した方法を選択して下さい。
本書では、
代表的な方法として「チューキーの方法」とボンフェローニの方法を改良した「ホルムの方法」を示しています。
しかし、本書のExcelではp値を求める事が出来ません。p値の記載が論文等で必要な場合は、p値が出力される商用統計ソフトやフリーオンラインソフトを利用して下さい。
なお、
「チューキーの方法」には、
 
・Tukey's WSD:Wholly Significant defference
・Tukey's HSD:Honestly Significant defference
・Tukey-Kramer
 
などがあります。最近では「Tukey's HSD」の使用が多い様です。
ここチューキー(John W. Tukey)のエピソードを「統計学を拓いた異才たち」(日本経済新聞社)からご紹介しましょう。
本書「すぐに役立つ統計のコツ」(5ページ)の図2.1で示した箱ひげ図(Box Plot)はチューキーの提案によるものだそうです。
幹葉表示やルートグラムなど、常日頃、身近でチューキーの恩恵を受けており、チューキーの多才ぶりを知る事が出来ます。
そこで、
ルートグラムの一例をご紹介しておきます(図1、図2)。
 
図1 2項乱数によるヒストグラム
 
図2 図1のルートグラム
 
次回は、
引き続き「すぐに役立つ統計のコツ」から第4章の「等分散性の検定」についてご紹介します。
 
情報統計研究はここから
 
 
 
 
 

統計のコツのこつ(7)

2016-07-22 18:24:33 | 日記・エッセイ・コラム
このブログは「すぐに役立つ統計のコツ」(オーム社)の内容に沿って書いています。
あまりにも有名な「ステューデント」のt検定(正規分布を仮定したパラメトリック法)に対して、正規分布を仮定しなくてもよい「ノンパラメトリック法」のエピソードなどを紹介します。
 
「すぐに役立つ統計のコツ」の「第3章 2つの代表値の比較」(10ページ)です。
 
 
本書の例題(データ)は下記の情報統計研究所(HP)からダウンロード出来ますのでご利用下さい。
 
正規分布を仮定しなくてもよい「ノンパラメトリック法」の代表格と言えば、Wilcoxon や Mann-Whitney ではないでしょうか。
 
 
本書では、Excel でウイルコクッスンの方法(Wilcoxon sum rank test)を14ページで紹介しています(Mann-Whitney test と結果は同じ)。
現在、ノンパラメトリック法に関して諸説あります。例えば、等分散であれば正規性にはあまり拘る必要はなくt検定で良いが、そうでなければ「ノンパラメトリック法」を用いる・・と言う説です。ノンパラメトリック法でも外れ値の影響を受けるので、
「Wilcoxon Mann-Witney test」でも等分散性であることが条件となります。もし、非等分散であっても正規分布に近いなら「ウエルチ」のt検定を用いても問題ない・・と言う説もあります。実際、色々な説があり実践者も悩むところです。
 
 
 
一方、
「統計学を拓いた異才たち」(日本経済新聞社)によれば、デウイッド.コックス(David R. Cox)とジョージ・ボックス(Goorge E. P. Box)の2人は、有名な「ステューデント」のt検定について悩んでいました。そう~、分散が等しくないとき・・、すなわち、外れ値の影響を小さくする方法として「ボックス・コックス変換」を提唱しました。なお、本書では、正規分布に近づける方法として対数変換を示していますが、ルート(平方根)変換など色々な方法が開発されています。しかし、正規分布でないからと言って、何でも変換するのは良くありません。データの性質を良く吟味することです。
意に沿わない外れ値があって正規分布にならないのなら、その理由を考えましょう。イノベーションでは外れ値に重要な発見を見出す事があるのですから・・・。
 
次回は、
「すぐに役立つ統計のコツ」の第4章についてご紹介します。
 
情報統計研究はここから
 

統計のコツのこつ(6)

2016-07-21 12:32:17 | 日記・エッセイ・コラム
 
このブログは「すぐに役立つ統計のコツ」(オーム社)の補足みたいなものです。統計学に名を残す偉人(異才)たちのエピソードも交えています。それでは、本書の10ページを開いて下さい。
 
「すぐに役立つ統計のコツ」の「第3章 2つの代表値の比較」(10ページ)です。
 
本書の例題(データ)は下記の情報統計研究所(HP)からダウンロード出来ますのでご利用下さい。

偉大な先人達は、AグループとBグループの平均値差の検定方法を発表しました。それが、あまりにも有名な「ステューデント」のt検定です。なのに、本書では「ウエルチ」のt検定を例題として取り上げています。
「ウエルチ」のt検定に付いては下記に詳しいと思いますのでご紹介しておきます。
 
The Generalization of Student's' problem when Several Differen Population Variance are Involved (B.L.Welch)
 
要するに、
「ステューデント」のt検定は正規性・等分散性(バラツキが等しい)の条件が付いていました。それでは、バラツキが等しくない非等分散のときはどうするのだ・・・、との疑問に対して「ウエルチ」が Welch's t-test を発表しました
(「統計学を拓いた異才たち」より)。
 
今日、「ステューデント」のt検定はロバスト(和訳:頑健)だから、少々のバラツキの違いは問題ないと主張する人々もいます。
一般的には、等分散性の検定をして非等分散なら「ウエルチ」のt検定を用いるとか・・・、多くの商用統計ソフトでは両方の結果を出力して判断を実践者にまかせている様です(これは後付けではないか・・、と思う人もいるでしょう)。
これには、筆者など統計の現場で日々分析に当たっている者は困ってしまいます。
 
 
 
 
そこで、
等分散かどうか分からないなら、まず「ウエルチ」のt検定をやってみる・・・、そして、実験計画や測定データを見直しても
なお、等分散と言えないなら積極的に「ウエルチ」のt検定を用いる・・、もし等分散なら用いる必要はないと言えます。
とくに、海外の学術誌の査読者は厳しい様ですね。
 
一つ注意すべきは、「対応あり」なのに「対応なし」のt検定をするのは大きな誤りにつながります。
 
次回は、
引き続き「すぐに役立つ統計のコツ 第3章」から ノンパラメトリック検定についてご紹介します。
 
情報統計研究はここから
 
 

統計のコツのこつ(5)

2016-07-13 18:07:13 | 日記・エッセイ・コラム
このブログは「すぐに役立つ統計のコツ」(オーム社)の内容を、より分かり易く興味を持って頂ける様に
書いているつもりです。
 
 
今回は統計学に名を残す偉人たちのエピソードも紹介します。それでは、
本書の10ページを開いて下さい。
 
「すぐに役立つ統計のコツ」の「第3章 2つの代表値の比較」(10ページ)です。
 
 
 
 
本書の中ではよく「有意(ユウイ)」という単語が出てきます。優位ではありません。有意は「α:アルファ」で表されます。
「α」は有意水準のことで「α=0.05」は、危険率=100×α=5%です。すなわち、5%は誤る危険があるってことです。
統計用語では「アルファ・エラー」(第1種の過誤)や「ベータ・エラー」(第2種の過誤)と言われています(本書28ページ参照)。統計分析には、この2つの過誤(αとβ)が常に付きまといます。
「統計学を拓いた異才たち」(日本経済新聞社)によれば、フィッシャーは有意性を示す確率をP値で表したとあります。また、
彼は P値が<0.01 なら「計算された検定統計量を偶然に越えるのは100回に1度であるから、結果の差異は明らかに有意である」(1929年)と発表したとあります。
ここから、P値をもって有意とする定義がなされた様に思われます。
 
 
次回は、
引き続き「すぐに役立つ統計のコツ(6) 第3章」から t 検定についてご紹介します。
 
本書の例題(データ)は下記のHPからダウンロード出来ますのでご利用下さい。
情報統計研究はここから