統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

医学と統計(57)

2010-11-24 10:19:23 | 日記・エッセイ・コラム

情報統計研究所へのアクセスはここからお気軽に

多重クロス集計と Mantel-Haenszel test ( マンテルーヘンツェル テスト) について。
表1のようなデータがあったとします。

表1 2群の比率を表すクロス集計

                               A group                B group
---------------------------------------------------------------------
Censored            42 ( 46.67% )         51 ( 63.75% )
Event                  48 ( 53.33% )         29 ( 36.25% )
---------------------------------------------------------------------
Total                   90 ( 100% )             80 ( 100% )

表1は「2×2分割表」ですのでカイ2乗検定により、
Chi-squred test: p-value = 0.0376

となり、統計学的に有意と判断されます。
表1の「 Censored」 を生存、「 Event 」を死亡としますと、A group と B group の生存割合には有意な差があると言えます。しかし、
表1の集計は、実は表2 の様に 「Stage-1 ~ Stage-3 」( 例えば、病期など )に分類されていたものを一つにまとめたものでした。

表2 複数カテゴリーで区分された多重クロス集計

Stage-1      A group   B group                      Statics test
-------------------------------------------------------------------------------------------
Censored        15             18           X-squared:p-value     = 0.4053
Event               5               2            Fisher's test:p-value = 0.4075    
-------------------------------------------------------------------------------------------
Stage-2      A group   B group
Censored          18           26           X-squared:p-value    = 0.1157
Event                22          14            Fishe's test:p-value = 0.1151
------------------------------------------------------------------------------------------
Stage-3        A group   B group
Censored           9              7           X-squared:p-value     = 0.9507
Event               21           13            Fisher's test:p-value = 0.7635
------------------------------------------------------------------------------------------
各 Stage ごとに比較すると、いずれも統計学的に有意と言えません。

表1で有意であったものが、例えば、臨床病期ごとに比較すると有意でなくなります。
原因の一つとして、
カイ二乗検定では度数(症例数)に左右されることが考えられます。以前に、医学と統計 (37) (38) で検定に必要な度数をもとめる検出力について説明しましたが、医学において統計学的に満足すべき症例数が常に得られるとは限りませんし、得られない方が多いかも知れません。そこで、
2群間の偏りを補正して行う有意差検定が Mantel-Haenszel test ( マンテル-ヘンツェル テスト)です。統計学的検定のややこしさは常のことですが、Mantel-Haenszel method においても表2 のようなクロス集計において、各 Stage で交互作用のないことが条件となります。
要するに、
「Stage-1 ~ Stage-3 」において変数間の関連が同じかを問うことであり、それの検定が「ウールフの検定 ( Woolf-test ) 」です。

次回に続く!


医学と統計(56)

2010-11-12 11:53:02 | 日記・エッセイ・コラム

情報統計研究所へのアクセスはここからお気軽に

医学と統計(56)
前回に引き続き主成分回帰分析(PCR)について、前回のデータをもとに考えたいと思います。
前回の目的変数(status)と説明変数(w1~W4)の関係は第1主成分スコアーを説明変数とした logistic 回帰モデルによって、細胞発育状態 ( good=0 , poor=1 ) の予測を行うものでした。
通常、重回帰型分析は予測モデル式を推定するものですが、医学では重回帰型モデルによる未知変数の予測よりも説明変数の統計学的な有意性を目的に重回帰型分析を行うことが多いようです。本来は、未知サンプルを回帰式に当てはめたときの予測の良いモデルを求める事にあります。前回、多重共線性に問題はないかを問いましたが、PCR では主成分スコアーを説明変数としており、対応する固有値の高いものを用いておりますので、多重共線性を気にしなくても良いと言うのが、最近の回帰分析の動向です。しかし、
医学のように統計学的有意変数の select が目的の場合は、多重共線性を無視することは出来ません。この様に、
主成分スコアーなどの factor に基づく回帰分析としては、PCR や PLS ( Partial Least squares ) があります。
前回のPCRでは「R」の princomp を用いましたが、library(pls) では次により分析が出来ます。
  summary ( pcr  ( status~  ., 3 , data = mydata ) )
  summary ( plsr ( status~  ., 3 , data = mydata ) )

係数は次により求める事が出来ます。
 pcr ( status~ ., 3 , data=mydata )$confficients

SAS-JMPでは多変量解析でPLS分析を行う事が出来ます。ここでは、「R」での出力結果(係数)を表1と表2に示しましたが、どちらを用いるかは研究者の判断に任されます。

表1 「R」関数 PCRの出力結果(係数)
                 W1        W2      W3       w4
COMP-1    0.051     0.095    0.145   0.209
COMP-2   -0.093   -0.073   -0.009   0.427
COMP-3    0.020   -0.123   -0.039   0.443

表2   「R」関数 PLS の出力結果(係数) 
                   W1        W2      W3        w4
COMP-1     0.044     0.086    0.134    0.224
COMP-2    -0.060   -0.062   -0.048    0.441
COMP-3      0.175    0.084   -0.318    0.505

前回のデータでは表1と表2のCOMP-1(第1主成分)の係数を採用すれば良いでしょう。すなわち、
PCRの予測式(COMP-1)は、
     Y pcr=0.051W1+0.095W2+0.145W3+0.209W4

PLSの予測式(COMP-1)は、
     Y pls=0.044W1+0.086W2+0.134W3+0.224W4

となります。
「R]では、fitted() 関数で予測値が得られます。

但し、
前回のデータは Logistic 回帰モデルへの当てはめでしたので、その予測式は、
     f (X)=exp ( α+βX )/(1+exp(α+βX ) )

となりますが、「R」では fitted ( logit.model ) でOKです。

前回の表3を訂正します。

表3 「R」の出力結果(訂正)
Cedtimate
( 表3 の intercept が α 、x が β のEstimateです )

筆者としては、
母集団仮説にばかりこだわっていると、データの真実を見逃してしまう恐れがありますので、最新の統計手法に目を向けて欲しいと思っています。

 


医学と統計(55)

2010-11-04 12:15:03 | 日記・エッセイ・コラム

情報統計研究所へのアクセスはここからお気軽に

主成分回帰分析(Pricipal Component Regression)について。
図1は主成分分析での第1主成分(COMP-1)と第2主成分(COMP-2)の主成分スコアを2次元座標にプロットしたものです。
  図1 主成分スコアー散布図
Pcrplot

図1では明らかに2つの群に分かれており特徴的な散布図です。この散布図のデータは表1のようになっています。
 表1:主成分分析に用いたデータ
Pcrdata

表1の変数(status)は目的変数であり、ここでは、細胞とか微生物とか何らかの計測値の結果(good=0、poor=1)を、そして、「w1~w4」は週単位などの時間を表しています。
主成分分析結果は表2の通りであり、主成分負荷量と寄与率を示しました。
 表2 主成分負荷量と寄与率
Pcrloading

図1と表2から、ここでのデータの寄与率は十分に大きなCOMP-1 と COMP-2 で説明できそうです。主成分回帰(PCR)は、
ここでの COMP-1 の主成分スコアを説明変数として重回帰型分析を行ったものです。
ここでは、
目的変数(status)が「0」と「1」の2値ですので、logistic 回帰分析を適用します。

「R」プログラムの環境があれば、次の様になります。
  pcr<- princomp ( mydata , cor = TRUE )
    summary ( pcr , loading=TRUE )
  comp.1<- pcr$scores [ , 1 ]
  logit.model<- glm ( status ~ comp.1, binomial , data=mydata)
    summary ( logit.model )

この結果は表3に示したようになりました。
 表3 「R」の出力結果
Pcrestimate

さて・・・、
重回帰分析では多重共線を問題にしていました・・・、そうです、相関の強いものは除くのでした・・・。
ここでのデータは status を時間経過で計測していますので、当然、w1~w4 の相互間には強い相関関係が見られます。
多重共線性を無視して良いのでしょうか・・・

次回に続く!