統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

統計のコツのこつ(16)

2016-09-08 11:23:07 | 日記・エッセイ・コラム
このブログは「すぐに役立つ統計のコツ」(オーム社)をもとに、チョット付け加えておきたい事やチョット参考になるかも・・を書いています。
気軽に見て頂ければと思っています。前号に引き続き「多変量解析」のお話です。
 
それでは、「すぐに役立つ統計のコツ」第7章(106ページ)を開いて下さい。
 
本書の例題(データ)は下記の情報統計研究所(HP)からダウンロード出来ますのでご利用下さい。
 
● ロジスティック回帰分析(本書106ページ)について。
これは、いくつかの説明変数に対して、目的変数が2値(「ある/なし」など)の場合の回帰分析です。前号の重回帰分析と同じように回帰モデルから有意な説明変数を知ることが出来ます。
Excelでは「ソルバー」の機能を用いて計算できますが、データ解析環境「R」だと非常に簡単な関数「glm()」でOKです!
 
本書の「例題18」(表7-18、107ページ)を「R」でやってみましょう。
 
まずはデータを次の要領でダウンロードして下さい。
 
Windows の場合: 
・情報統計研究所(http://kstat.sakura.ne.jp)にアクセス
・Top ページの「Excel Saples」をクリック
・Excel_Sample(2).xlsx を右クリック
・「名前を付けて保存」を選択し適当なフォルダーに保存します。
・Excelを起動し、本ファイルを読み込み Sheet名「表7.18」を開いて下さい。
・「A列1行:E列41」を選択しコピー
 そして、
 
データ解析環境「R」を立ち上げ、次のコマンドを書いて下さい。
dat<- read.deim("clipboard", header=T)
 
そして、「Enter」で実行すればデータが読み込まれます。
ここで、
 
・ファイル→新しいスクリプト→無題-Rエディタ→次のコマンドを書き込みます。
 
head(dat) # データの確認
fit<- glm(Event~ factor(f_Var.1)+ factor(f_Var.2)+ factor(f_Var.4), data=dat)
summary(fit)
 
なお、f_Var が「0,1」であれば、factor を省略出来ます。
 
実行結果は次の通りです。
 
出力結果: 
********
Call:
glm(formula = Event ~ factor(f_Var.1) + factor(f_Var.2) + factor(f_Var.4),
    data = dat)
 
Deviance Residuals:
     Min        1Q    Median        3Q       Max 
-0.99153  -0.27966  -0.00636   0.35805   0.72034 
 
Coefficients:
                 Estimate Std. Error t value Pr(>|t|) 
(Intercept)       0.02119    0.12659   0.167   0.8680 
factor(f_Var.1)1  0.36864    0.14069   2.620   0.0128 *
factor(f_Var.2)1  0.25847    0.14815   1.745   0.0896 .
factor(f_Var.4)1  0.34322    0.13483   2.546   0.0153 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
 
(Dispersion parameter for gaussian family taken to be 0.1588983)
 
    Null deviance: 10.0000  on 39  degrees of freedom
Residual deviance:  5.7203  on 36  degrees of freedom
AIC: 45.721
 
Number of Fisher Scoring iterations: 2
********
 
「すぐに役立つ統計のコツ」(表7.20、109ページ)の結果を違うじゃない・・・?
 
そうです!
 
この続きは次号を見て下さい。
 
情報統計研究はここから