統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

統計のコツのこつ(20)

2016-10-10 12:30:19 | 日記・エッセイ・コラム
「すぐに役立つ統計のコツ」(オーム社)の第7章(多変量解析、124ページ)を開いて下さい。
 
 
 
「6.データ情報(特徴)を要約する~主成分分析~」には、主成分分析の概要とその方法を「例題21」をもとに説明しています。
主成分分析は医学・医療分野で探索的な方法として大いに役立つものですが、母集団仮説検定が主流の医学分野では、まだまだ、馴染んでいないと言えます。しかし、
主成分分析の結果から得られる情報によって、新たな発見を見出したり、統計的方法の選択に良い結果をもたらすことも多いので探索的主成分分析の活用をお勧めします。
 
ここでは、
データ解析環境「R」を使ってその方法を説明しましょう。
 
 
情報統計研究にアクセスして(Topページ)の「Excel_Samples」をクリックし、「Excel_Sample(2).xlsx」(Sheet名:表7.30)を開いて下さい。そして、

「B1:G21」を「選択→コピー」し「R」に取り込んで下さい。
 
その方法は「統計のコツのこつ(16)」に記した通りです。
 
それでは、「R」を立ち上げ「ファイル」→「新しいスクリプト」→「無題・Rエディタ」に次のコマンドを書いて下さい(コピーしてペーストすれば良いでしょう)。
***
dat<- read.delim("clipboard", header=T)
head(dat)
 
library(psych)
fit1<- principal(dat, nfactors =2, rotate="varimax")
fit1
***
 
本書(127ページ)と同じ結果が得られたと思います。
 
しかし、ここでは、もっと一般的な関数「princomp()」を用いてやってみましょう。
 
***
fit2<- princomp(dat, cor = TRUE)
fit2
 
出力結果:
Importance of components:
                          Comp.1    Comp.2    Comp.3    Comp.4    Comp.5
Standard deviation     1.3364934 1.1266777 1.1139136 0.7955190 0.7752071
Proportion of Variance 0.2977024 0.2115671 0.2068006 0.1054751 0.1001577
Cumulative Proportion  0.2977024 0.5092695 0.7160701 0.8215452 0.9217029
                           Comp.6
Standard deviation     0.68540699
Proportion of Variance 0.07829712
Cumulative Proportion  1.00000000
***
 
主成分スコアー(得点)をもとに2次元散布図を描いて見ましょう。
 
***
plot(fit2$scores[,1]*-1, fit2$scores[,2], type="n")
text(fit2$scores[,1]*-1, fit2$scores[,2], 1:20)
***
 
本書(125ページ、図7.5)に合わすために「fit2$scores[,1]*-1」としています。
 
主成分散布図は図1の通りであり、本書(125ページ、図7.5)と同じ散布図が得られました。
 
図1 主成分散布図
 
 
この図1の散布図から、このデータ(気管支喘息患者)の特徴が分かると思います。
この様に、主成分分析はデータの持つ潜在的な情報をも座標上に縮約できます。
 
次回は、引き続き「R」による主成分分析のお話です。
 
情報統計研究はここから