統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

医学と統計(55)

2010-11-04 12:15:03 | 日記・エッセイ・コラム

情報統計研究所へのアクセスはここからお気軽に

主成分回帰分析(Pricipal Component Regression)について。
図1は主成分分析での第1主成分(COMP-1)と第2主成分(COMP-2)の主成分スコアを2次元座標にプロットしたものです。
  図1 主成分スコアー散布図
Pcrplot

図1では明らかに2つの群に分かれており特徴的な散布図です。この散布図のデータは表1のようになっています。
 表1:主成分分析に用いたデータ
Pcrdata

表1の変数(status)は目的変数であり、ここでは、細胞とか微生物とか何らかの計測値の結果(good=0、poor=1)を、そして、「w1~w4」は週単位などの時間を表しています。
主成分分析結果は表2の通りであり、主成分負荷量と寄与率を示しました。
 表2 主成分負荷量と寄与率
Pcrloading

図1と表2から、ここでのデータの寄与率は十分に大きなCOMP-1 と COMP-2 で説明できそうです。主成分回帰(PCR)は、
ここでの COMP-1 の主成分スコアを説明変数として重回帰型分析を行ったものです。
ここでは、
目的変数(status)が「0」と「1」の2値ですので、logistic 回帰分析を適用します。

「R」プログラムの環境があれば、次の様になります。
  pcr<- princomp ( mydata , cor = TRUE )
    summary ( pcr , loading=TRUE )
  comp.1<- pcr$scores [ , 1 ]
  logit.model<- glm ( status ~ comp.1, binomial , data=mydata)
    summary ( logit.model )

この結果は表3に示したようになりました。
 表3 「R」の出力結果
Pcrestimate

さて・・・、
重回帰分析では多重共線を問題にしていました・・・、そうです、相関の強いものは除くのでした・・・。
ここでのデータは status を時間経過で計測していますので、当然、w1~w4 の相互間には強い相関関係が見られます。
多重共線性を無視して良いのでしょうか・・・

次回に続く!