統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

医学と統計(45)

2010-05-18 11:35:04 | インポート

情報統計研究所へのアクセスはここから。

多重共線性(2)について。
多重共線性の検討は「SPSS」(統計解析専用ソフト)の「回帰」の選択から「線形」を選び、ダイアロボックスの「統計」をクリックし、「共線性の診断」を選択すれば良いのです。なお、
共線性の統計量は、
変数(Ⅹ1)を従属変数とし変数(Ⅹ2+Ⅹ3+Ⅹ4)を独立変数としたときの「R^2」から、
 Ⅹ1の許容量=1-R^2、VIF=1/許容量 

となります。同じように、
変数(Ⅹ2)を従属変数とし変数(Ⅹ1+Ⅹ3+Ⅹ4)を独立変数としてⅩ2の許容量と VIF を求めます。

表3 共線性の統計量
Viftable

共線性があれば許容量は0 に近く、VIF は大きくなり、通常 VIF >= 5 で要注意と言われていますが、表3 の統計量はいずれも VIF<5 です。だからと言って多重共線性を否定することは出来ません。ここは、
前回の表2の相関関係からどちらか一方の変数を選ぶ必要がありそうですので、主成分分析で統合できる変数かどうかを見てみましょう。

図2 主成分散布図

Pcascatter

図3 主成分負荷量
Pcaloading

図2と図3の主成分散布図と第1主成分負荷量から負荷量の大きな変数は統合しても良さそうです。わざわざ、主成分分析をしなくても医学的な知識から変数間の関連性に気づけば、相関性の高い変数は取り除いておけば良いのです。しかし、
ここでは、
多重共線性の例題を示していますので、その様なことは当然としながら話を進めたいと思います。医学統計では重回帰モデルの推定よりも有意変数(因子)の特定に重きを置くことが多いようです。もちろん、モデル式の善し悪しは大切です。しかし、
統計の目的が有意変数を知ることであれば、多重共線性があってもなくても変数選択(stepwise)へと進めば良いのでしょうか?ここでは、表4に例題の stepwise の結果を示しました。

表4 例題における変数選択の結果
Stepwise

変数選択の結果、統計学的に有意な変数は、「Ⅹ4」だけでした。変数選択によって多重共線性のある変数は除去されています。
重回帰型分析で理屈に合わない結果のときは多重共線性を疑って下さい。


 


医学と統計(44)

2010-05-10 10:40:36 | 日記・エッセイ・コラム

情報統計研究所へのアクセスはここから。

多重共線性(1)について。
医学における重回帰型の分析では、モデル式よりも有意変数の特定が主な目的になる場合があります。この様な場合、多重共線性は重要ですが、統計ソフトに対する全面的な信頼から、その結果に対する吟味をおろそかにすると多重共線性を見逃すことになりかねません。例えば、
従属変数=Y、独立変数=Ⅹ1、Ⅹ2、Ⅹ3、Ⅹ4 からなる次の様なデータがあったとします。
 「Y」はevent など(例えば、予後が良=0、不良=1)とし、
  「Ⅹ1~Ⅹ4」も、それぞれ、0 と 1で表した 2値の名義尺度とします。

ここでの、
重回帰分析では名義尺度の 2値データを間隔尺度の数値データとして分析したとします。
その結果は表1の様になりました。

表1 重回帰分析の出力結果(SAS-JMP)
Multianalyse

表1の変数(Ⅹ1) の推定値 がマイナス(-)になっています。すなわち、
Ⅹ1の推定値がマイナスと言うことはⅩ1=1 の方が Y=0 に傾くと言うことになります。例えば、
Ⅹ1が疾患(なし=0、あり=1)としますと。疾患あり=1 の方が予後が良=0 に傾くことになり、臨床的にオカシイ結果なら、図1の単変量結果(モザイク図)を見ることにしましょう。

図1 変数Ⅹ1による比率の差
Mosaicx1_2
図1では、変数Ⅹ1=0 (例えば、疾患なし)の方が予後良(Y=0)の割合が多く、変数Ⅹ1=1(例えば、疾患あり)での予後良の割合は少なくなっており臨床的に妥当だと言えます(Fisher's test p=0.0346)。

この様に、単変量と多変量の結果が異なることから、多重共線性を疑う必要が有りそうです。独立変数間の相関行列を見てみましょう(表2)。

表2 独立変数間の相関関係

Correlationmat

表2の様に、Ⅹ1 とⅩ3 の間に非常に高い相関(r=0.823)があります。この様な時は多重共線性が疑われます。表1のマイナス係数は多重共線性の影響と考えられます。

次回に続く!