医学と統計（55)

2010-11-04 12:15:03 | 日記・エッセイ・コラム

情報統計研究所へのアクセスはここからお気軽に

主成分回帰分析(Pricipal Component Regression)について。
図１は主成分分析での第1主成分(COMP-1)と第２主成分(COMP-2)の主成分スコアを２次元座標にプロットしたものです。
図１　主成分スコアー散布図

図１では明らかに２つの群に分かれており特徴的な散布図です。この散布図のデータは表１のようになっています。
　表１：主成分分析に用いたデータ

表１の変数(status)は目的変数であり、ここでは、細胞とか微生物とか何らかの計測値の結果（good＝０、poor＝１）を、そして、「w1～w4」は週単位などの時間を表しています。
主成分分析結果は表２の通りであり、主成分負荷量と寄与率を示しました。
　表２　主成分負荷量と寄与率

図１と表２から、ここでのデータの寄与率は十分に大きなCOMP-1 と COMP-２で説明できそうです。主成分回帰(PCR)は、
ここでの COMP-1 の主成分スコアを説明変数として重回帰型分析を行ったものです。
ここでは、
目的変数(status)が「０」と「１」の２値ですので、logistic 回帰分析を適用します。

「R」プログラムの環境があれば、次の様になります。
pcr<- princomp ( mydata , cor = TRUE )
summary ( pcr , loading=TRUE )
comp.1<- pcr$scores [ , 1 ]
logit.model<- glm ( status ~ comp.1, binomial , data=mydata)
summary ( logit.model )

この結果は表３に示したようになりました。
　表３　「R」の出力結果

さて・・・、
重回帰分析では多重共線を問題にしていました・・・、そうです、相関の強いものは除くのでした・・・。
ここでのデータは status を時間経過で計測していますので、当然、ｗ１～ｗ４の相互間には強い相関関係が見られます。
多重共線性を無視して良いのでしょうか・・・

2024年12月
日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

統計ブログはじめました！

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

医学と統計（55)