情報統計研究所へのアクセスはここからお気軽に
医学と統計(56)
前回に引き続き主成分回帰分析(PCR)について、前回のデータをもとに考えたいと思います。
前回の目的変数(status)と説明変数(w1~W4)の関係は第1主成分スコアーを説明変数とした logistic 回帰モデルによって、細胞発育状態 ( good=0 , poor=1 ) の予測を行うものでした。
通常、重回帰型分析は予測モデル式を推定するものですが、医学では重回帰型モデルによる未知変数の予測よりも説明変数の統計学的な有意性を目的に重回帰型分析を行うことが多いようです。本来は、未知サンプルを回帰式に当てはめたときの予測の良いモデルを求める事にあります。前回、多重共線性に問題はないかを問いましたが、PCR では主成分スコアーを説明変数としており、対応する固有値の高いものを用いておりますので、多重共線性を気にしなくても良いと言うのが、最近の回帰分析の動向です。しかし、
医学のように統計学的有意変数の select が目的の場合は、多重共線性を無視することは出来ません。この様に、
主成分スコアーなどの factor に基づく回帰分析としては、PCR や PLS ( Partial Least squares ) があります。
前回のPCRでは「R」の princomp を用いましたが、library(pls) では次により分析が出来ます。
summary ( pcr ( status~ ., 3 , data = mydata ) )
summary ( plsr ( status~ ., 3 , data = mydata ) )
係数は次により求める事が出来ます。
pcr ( status~ ., 3 , data=mydata )$confficients
SAS-JMPでは多変量解析でPLS分析を行う事が出来ます。ここでは、「R」での出力結果(係数)を表1と表2に示しましたが、どちらを用いるかは研究者の判断に任されます。
表1 「R」関数 PCRの出力結果(係数)
W1 W2 W3 w4
COMP-1 0.051 0.095 0.145 0.209
COMP-2 -0.093 -0.073 -0.009 0.427
COMP-3 0.020 -0.123 -0.039 0.443
表2 「R」関数 PLS の出力結果(係数)
W1 W2 W3 w4
COMP-1 0.044 0.086 0.134 0.224
COMP-2 -0.060 -0.062 -0.048 0.441
COMP-3 0.175 0.084 -0.318 0.505
前回のデータでは表1と表2のCOMP-1(第1主成分)の係数を採用すれば良いでしょう。すなわち、
PCRの予測式(COMP-1)は、
Y pcr=0.051W1+0.095W2+0.145W3+0.209W4
PLSの予測式(COMP-1)は、
Y pls=0.044W1+0.086W2+0.134W3+0.224W4
となります。
「R]では、fitted() 関数で予測値が得られます。
但し、
前回のデータは Logistic 回帰モデルへの当てはめでしたので、その予測式は、
f (X)=exp ( α+βX )/(1+exp(α+βX ) )
となりますが、「R」では fitted ( logit.model ) でOKです。
前回の表3を訂正します。
表3 「R」の出力結果(訂正)
( 表3 の intercept が α 、x が β のEstimateです )
筆者としては、
母集団仮説にばかりこだわっていると、データの真実を見逃してしまう恐れがありますので、最新の統計手法に目を向けて欲しいと思っています。