統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

医学と統計(37)

2009-12-22 11:16:29 | 日記・エッセイ・コラム

情報統計研究所へのアクセスはここから。

平均値の差の検定における検出力について考えて見ましょう。
例題は「やさしい医学統計手法」(http://kstat.sakura.ne.jp/medical/med_014.htm)の「例題20」です。例題は次ぎの様になっています。

 Age   N   mean   sd
  A年代  30   122.5    10.85
  B年代  20   133.4    12.24
  C年代  10   139.0    20.40

例題の平均差の検定結果は次の通りです。
              2群間               t-value      p-value         e.s.
   A年代とB年代        3.297        0.0018*      0.952
   A年代とC年代        2.445        0.0325*      0.893
   B年代とC年代        0.799        0.4398       0.309

但し、C年代間はWelch test で、「*」は統計学的に有意(p<0.05)を示しています。
なお、e.s. は効果量(Effect Size)と言い、検定で有意な結果が得られる確率は、標本の大きさに影響されますので、これに左右されない効果量(e.s.)を t-value と共に併記することが求められようとしています。そして、
 e.s.=ABS(t-value)*sqrt((Na+Nb)/(Na*Nb))
  ABS(t-value)=e.s. * N

ですので、有意差は e.s. と N で決まります。そこで、
検定での有意差には e.s. を併記すべきとの意見が出る訳です。

図:PlotMeanによる比較
Studenttest

次回は、効果量(e.s.)と検出力について考えます。


医学と統計(36)

2009-12-10 11:39:47 | 日記・エッセイ・コラム

情報統計研究所へのアクセスはここから。

例えば、
ある動物実験において比較的短期間に個体に起こる多くが破壊的な現象(TRUE)を問題にするとき、同一個体で何回も実験を繰り返すことは出来ません。そこで、実験では個体をいくつかの群に分け各群に異なる濃度の薬物等を投与し、どの程度で破壊的な TRUE が起こるかを調べることになります。
下記の表は、ある薬物の投与量と %TRUE を示した仮想データです。
表1:薬物投与量と%TRUE
     群     投与量     個体数     TRUE数     %TRUE
     1         100           10               0                0.000
     2         200           15               1                0.067
     3         300           15               3                0.200
     4         400           15               5                0.333
     5         500           10               7                0.500
     6         600           10               7                0.700

表1では、投与量を増やすと %TRUE も増えています。この様な現象を評価するには、通常、0%TRUE、50%TRUE、100%TRUE を見ます。LDp% として、多くの場合、LD50% が用いられています。LD50% は用量反応が単調に増加している事を前提にしており、その単調な増加曲線は Probit 曲線や Logistic 曲線に当てはめられ、表1のデータは図1のようになります。

図1:投与量と%TRUEの関係
Proptest

図1 の曲線から推定された LD50%=49.02 であり、その 95%CI=41.17~56.87 となりました。R program では、glm ( y ~ x1 , weight=w , binominal ) 、ここで、y=反応変数(TRUE and FALSE)、x1=投与量変数、W=重み付け変数 、で実行出来ます。


医学と統計(35)

2009-12-01 12:32:51 | インポート

情報統計研究所へのアクセスはここから。

今回は Propensity score(傾向スコア)の概要をご紹介します。例えば、
2つの Group ( TRUE群とFLSE群)があって、この2つのグループを説明する変数( X1, X2 )があったとします。医学においてTRUE群は対照群など、FALSE群は治療群などであり、X1 や X2 は年齢、性別、血圧など・・・・などが考えられます。すなわち、
Formular ( Group ~ X1 + X2 ) は Logistic 回帰分析によってTRUE群かFALSE群かのいずれかに属する確率(0.0~1.0)を得ることができ、この確率を Propensity score(PS)と言っています。これは X1 や X2 などGroupに影響を及ぼす因子を調整することになり、背景因子を除いた母集団検定などに用いられています。仮想例題ですが、

Ps1_6  左図は2群のある観測値で、その平均値±標準偏差はTRUE群(n=47)=10.66±4.90、False群(n=37)=13.69±3.96 だったときの t-test の結果は「 t-value=-3.566、df=82、p-value=0.0030 」で統計学的に有意と判断されます。ここで、

 

因子 X1 を例えば年齢などと仮定して、Logistic 回帰分析を行ったTRUPs2_4 の様になり、これがPSの散布図です。
この散布図を通常5つ以上のクラスに分けて t-test を行えば因子X1(例えば年齢など・・など)の背景因子を調整した母集団検定となります。正確には、Pair maching とか Full maching  などの方法が開発されており、R program の Library( optmatch )にある関数( pscore.dist )を用いるのが簡便かと思います。下図のR program による Full maching 結果は次の通りでした。
----------------------------------------------------------      
Welch Two Sample t-test
data:  tmean and cmean
t = 2.0899, df = 51.91, p-value = 0.04155
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.1032125 5.0856764
sample estimates:
mean of x  mean of y
3.3111111  0.7166667
----------------------------------------------------------