情報統計研究所へのアクセスはここから。
多重共線性(1)について。
医学における重回帰型の分析では、モデル式よりも有意変数の特定が主な目的になる場合があります。この様な場合、多重共線性は重要ですが、統計ソフトに対する全面的な信頼から、その結果に対する吟味をおろそかにすると多重共線性を見逃すことになりかねません。例えば、
従属変数=Y、独立変数=Ⅹ1、Ⅹ2、Ⅹ3、Ⅹ4 からなる次の様なデータがあったとします。
「Y」はevent など(例えば、予後が良=0、不良=1)とし、
「Ⅹ1~Ⅹ4」も、それぞれ、0 と 1で表した 2値の名義尺度とします。
ここでの、
重回帰分析では名義尺度の 2値データを間隔尺度の数値データとして分析したとします。
その結果は表1の様になりました。
表1の変数(Ⅹ1) の推定値 がマイナス(-)になっています。すなわち、
Ⅹ1の推定値がマイナスと言うことはⅩ1=1 の方が Y=0 に傾くと言うことになります。例えば、
Ⅹ1が疾患(なし=0、あり=1)としますと。疾患あり=1 の方が予後が良=0 に傾くことになり、臨床的にオカシイ結果なら、図1の単変量結果(モザイク図)を見ることにしましょう。
図1 変数Ⅹ1による比率の差
図1では、変数Ⅹ1=0 (例えば、疾患なし)の方が予後良(Y=0)の割合が多く、変数Ⅹ1=1(例えば、疾患あり)での予後良の割合は少なくなっており臨床的に妥当だと言えます(Fisher's test p=0.0346)。
この様に、単変量と多変量の結果が異なることから、多重共線性を疑う必要が有りそうです。独立変数間の相関行列を見てみましょう(表2)。
表2 独立変数間の相関関係
表2の様に、Ⅹ1 とⅩ3 の間に非常に高い相関(r=0.823)があります。この様な時は多重共線性が疑われます。表1のマイナス係数は多重共線性の影響と考えられます。
次回に続く!