統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

統計のコツのこつ(22)

2016-10-24 12:49:11 | 日記・エッセイ・コラム
「すぐに役立つ統計のコツ」(オーム社)には載せてませんが、
前回の主成分分析と関連して、「R」による因子分析の概要をご紹介します。
 
***
dat<- read.delim("clipboard", header=T)
head(dat)
 
fa1<- factanal(dat, factors = 3, rotation = "promax", scores = "regression", method = "pa") # 斜交回転:promax
fa1
 
出力結果:
Call:
factanal(x = dat, factors = 3, scores = "regression", rotation = "promax",     method = "pa")
 
Uniquenesses:
  WBC   IgE    Eo    Ba    St  Cmin
0.647 0.670 0.005 0.688 0.478 0.488
 
Loadings:
     Factor1 Factor2 Factor3
WBC  -0.336   0.254   0.340
IgE   0.583                
Eo    0.178   1.021        
Ba   -0.428   0.178  -0.292
St                    0.723
Cmin  0.734   0.191        
 
               Factor1 Factor2 Factor3
SS loadings      1.207   1.184   0.727
Proportion Var   0.201   0.197   0.121
Cumulative Var   0.201   0.399   0.520
 
Factor Correlations:
        Factor1 Factor2 Factor3
Factor1  1.0000   0.220  0.0318
Factor2  0.2200   1.000  0.0730
Factor3  0.0318   0.073  1.0000
 
The degrees of freedom for the model is 0 and the fit was 0
***
 
図1:主成分負荷量と主成分得点

 
図1を見ると、WBCとBaの矢印が同じ方向に向いており角度も小さいことが分かります。同じように、CminとIgEも同方向で角度が小さいです。
このことから、
気管支喘息患者での"WBCとBa"、"IgEとCmin"は関連性のある因子と思われます。すなわち、"白血球数と好塩基球数"、"気道過敏性とIgE"です。
 
これは、大体、臨床的に納得できるでしょうか・・・?
 
統計のコツは、まず実行して見ることです。
「すぐに役立つ統計のコツ」(オーム社)は、統計分析の実践を通じて統計的な方法を学ぶことが出来ると思います。
そうです~、学ぶより慣れることが統計分析のコツかも知れませんね!
そして、
疑問な点が一杯でて来るでしょう・・から、その疑問を専門書やインターネットなどで調べて行けば自然に統計的方法が身につくことでしょう。
 
「すぐに役立つ統計のコツ」(オーム社)に掲載されているエクセルの「例題」(データ)は、情報統計研究所のホームページからダウンロード出来ますので
ご利用下さい。
 
次回は、
「すぐに役立つ統計のコツ」の最終章(第8章)をご紹介します。
 
 
 
 
 
情報統計研究所はここから!
 
 

統計のコツのこつ(21)

2016-10-19 12:07:23 | 日記・エッセイ・コラム
前回は、データ解析環境「R」のlibrary(psych)にある関数「 principal()」と一般的な関数「princomp()」を用いた主成分分析をご紹介しました。
 
「R]には バイプロットと言う図1の様な描画方法「biplot(fit2)」があります。
 
図2 前回のバイプロット
 
図2は、変数(項目)と主成分スコアー(得点)が一緒に描画されています。
 
この様に、バイプロットは2つの関連を座標上に表すことが出来るので、より、データの情報を把握し易くなります。しかし、データに対する知識がなければ情報を引き出すことは出来ないでしょう。
 
ここで、図2のバイプロットが前回の図1と鏡像になっている事に気が付いたと思います。これは、単にアルゴリズムの逆転であり相対的な関係に影響はありません。
前回の図1はスコアーに「-1」を乗じてスコアーの正負を逆転させ、「すぐに役立つ統計のコツ」(125ページ、図7.5)に合わせています。
 
「R]には、「prcomp」関数も用意されています。
下記の内容を「コピー」し、「R」→「ファイル」→「新しいスクリプト」→「Rエディタ」に貼り付けて、やって見て下さい。
 
データは前回と同じく、
「Excel_Sample(2).xlsx」(Sheet名:表7.30)を用いて下さい。
 
***
dat<- read.delim("clipboard", header=T)
head(dat)
 
fit3<- prcomp(dat, scale=TRUE)
summary(fit3)
plot(fit3$x[,1], fit3$x[,2]*-1,type="n")
text(fit3$x[,1], fit3$x[,2]*-1,1:20)
***
 
本書(125ページ、図7.5)に合わすために「fit3$scores[,2]*-1」としています。
 
出力結果は省略します。
 
次回は、主成分分析と関連して「因子分析」のお話です。
 
情報統計研究はここから
 
 

統計のコツのこつ(20)

2016-10-10 12:30:19 | 日記・エッセイ・コラム
「すぐに役立つ統計のコツ」(オーム社)の第7章(多変量解析、124ページ)を開いて下さい。
 
 
 
「6.データ情報(特徴)を要約する~主成分分析~」には、主成分分析の概要とその方法を「例題21」をもとに説明しています。
主成分分析は医学・医療分野で探索的な方法として大いに役立つものですが、母集団仮説検定が主流の医学分野では、まだまだ、馴染んでいないと言えます。しかし、
主成分分析の結果から得られる情報によって、新たな発見を見出したり、統計的方法の選択に良い結果をもたらすことも多いので探索的主成分分析の活用をお勧めします。
 
ここでは、
データ解析環境「R」を使ってその方法を説明しましょう。
 
 
情報統計研究にアクセスして(Topページ)の「Excel_Samples」をクリックし、「Excel_Sample(2).xlsx」(Sheet名:表7.30)を開いて下さい。そして、

「B1:G21」を「選択→コピー」し「R」に取り込んで下さい。
 
その方法は「統計のコツのこつ(16)」に記した通りです。
 
それでは、「R」を立ち上げ「ファイル」→「新しいスクリプト」→「無題・Rエディタ」に次のコマンドを書いて下さい(コピーしてペーストすれば良いでしょう)。
***
dat<- read.delim("clipboard", header=T)
head(dat)
 
library(psych)
fit1<- principal(dat, nfactors =2, rotate="varimax")
fit1
***
 
本書(127ページ)と同じ結果が得られたと思います。
 
しかし、ここでは、もっと一般的な関数「princomp()」を用いてやってみましょう。
 
***
fit2<- princomp(dat, cor = TRUE)
fit2
 
出力結果:
Importance of components:
                          Comp.1    Comp.2    Comp.3    Comp.4    Comp.5
Standard deviation     1.3364934 1.1266777 1.1139136 0.7955190 0.7752071
Proportion of Variance 0.2977024 0.2115671 0.2068006 0.1054751 0.1001577
Cumulative Proportion  0.2977024 0.5092695 0.7160701 0.8215452 0.9217029
                           Comp.6
Standard deviation     0.68540699
Proportion of Variance 0.07829712
Cumulative Proportion  1.00000000
***
 
主成分スコアー(得点)をもとに2次元散布図を描いて見ましょう。
 
***
plot(fit2$scores[,1]*-1, fit2$scores[,2], type="n")
text(fit2$scores[,1]*-1, fit2$scores[,2], 1:20)
***
 
本書(125ページ、図7.5)に合わすために「fit2$scores[,1]*-1」としています。
 
主成分散布図は図1の通りであり、本書(125ページ、図7.5)と同じ散布図が得られました。
 
図1 主成分散布図
 
 
この図1の散布図から、このデータ(気管支喘息患者)の特徴が分かると思います。
この様に、主成分分析はデータの持つ潜在的な情報をも座標上に縮約できます。
 
次回は、引き続き「R」による主成分分析のお話です。
 
情報統計研究はここから