統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

医学と統計(47)

2010-06-28 11:09:06 | 日記・エッセイ・コラム

情報統計研究所.(統計分析のご相談ご依頼)のアクセスはここから。

移動平均と時差相関係数について。

図1 のデータは気管支喘息患者の末梢血中好塩基球数(Ba) と血清IgE値の日差変動の時系列データです。
図1 Ba と IgE の時系列データ
Originaldata

このデータの移動平均(7日)は図2 ( Ba )と図3 ( IgE )のように、Ba も IgE も増加と上昇の傾向が見られます。
図2 Ba の移動平均
Moveaverageba

図3 IgE の移動平均
Moveavergaeige

移動平均はMSエクセルの「データ分析→分析ツール→移動平均」を利用すれば良いでしょう。ここでは、
時差相関(相互相関とも言う)について説明したいと思います。時差相関はBa と IgE のデータを一つずつずらして相関係数を求めたものです。図4 の時差系列を見て下さい。

図4 Ba と IgE の時差系列
Timelagsample

図4 の様に、時差相関は対応する時系列データを一つずつずらせた青色部分の相関係数を求めたものです。時差相関係数はMSエクセルの関数を用いて計算することが出来ます(Microsoft Office Excel2007)。関数式による計算は次により行うことも出来ます。最初に、
Ba と IgE は測定単位が違いますので標準化をおこなっておきます。すなわち、

Ba を Xi とするとき dXi = ( Xi - meanX )/SDx  
IgE を Yi とするとき dYi = ( Yi - meanY  )/SDy   

を求めておき( SD=標準偏差 )、

Sxx = SUMSQ ( DXi )^0.5 、Syy = SUMSQ ( DYi )^0.5

から、
Lag=1 のとき、Sxy = SUMPRODUCT( X1: X22 , Y2 : Y23 )
Lag=2 のとき、Sxy = SUMPRODUCT( X1: X21 , Y3 : Y23 )
  :
Lag=10 のとき、Sxy = SUMPRODUCT( X1: X13 , Y11 : Y23 )

を求めます。以上から、
時差10日( Lag time=10 ) の時差相関係数は、次により求められます。
 r(k) = Sxy(k) / Sx(0)・Sy(0)  ( k=1, 2, ・・・, 10)

ここで注意すべきは、
Sx と Sy は時差=0 を用います(過去には、単純に Sxy(k)/Sx(k)・Sy(k) で求めたものもあります)。

次回に続く!


医学と統計(46)

2010-06-10 10:48:35 | 日記・エッセイ・コラム

情報統計研究所(統計分析のご相談ご依頼)のアクセスはここから。

データ変換について。
ここでのデータ変換とは 2項分布をするデータに対して、逆正弦変換(以下、ASIN)を行いデータを正規分布に近似させる方法です。
「やさしい医学統計手法の、下記項目をご参考にして下さい。 

**
1章 
 1.3.4 データ変換の仕方
2章
 2.2  正規分布について
**

例えば、
鼻アレルギー疾患者の血中の好酸球(Eo)を白血球数の割合で示した Eo% のデータが
表1 であったときのデータの分布( ヒストグラム )は 図1 のとおり歪んでおり、正規分布と
程遠いものです。

表1 血中好酸球の割合(Eo%)
Table1

図1 Eo%の ヒストグラム
Sourceeo   
基本統計量(単位:%) 
Min  25%tile  Median   75%tile    Max    Mean    SD
0.4      2.9          5.5          9.25      25.2     6.57    4.55 
( SAS-JMP の結果)

表1 のデータ(Ⅹi ) を ASIN ( sqrt ( Ⅹi/100 ) ) で変換すると表2 のラジアン(単位)となり、
図2 のように正規分布に近似させることが出来ます。角度で表す時は ASIN値×180/pi () にします。

表2 Eo% のASIN 変換値
Table2  

図2 ASIN変換値のヒストグラム
Asineo  
基本統計量(単位:ラジアン)
  Min     25%tile   Median   75%tile    Max     Mean    SD
0.063     0.171    0.237       0.309    0.526    0.244   0.09
( SAS-JMP の結果)

この様に、ASIN変換でデータを正規分布に近似させ、2群間や多群間(一元配置分散分析など)を行います。例えば、
鼻アレルギー疾患者のEo% をその症状の程度によって、次の2群に分けたとします。

Eo% 統計量(無変換値)
            n     mean±sd       等分散の検定         平均差検定
1群    88  7.48±4.98  Levene p=0.0063  t- test ( p=0.0026 )
2群  123  5.68±3.62  Bartlett p=0.0013 welch ( p=0.0044 )

Eo% 統計量(ASIN変換値)
           n      mean±sd       等分散の検定       平均値差検定 
1群  88  0.262±0.096  Levene p=0.1265  t-test ( p=0.0053 )
2群 123  0.228±0.082  Bartlett p=0.1098

上記の2群間の平均値差検定結果はどちらも統計的に有意ですが、p値を見ると正規分布を仮定したASIN変換値の方が厳しいようです。この様な例題ではASIN変換で統計的検定を行ってみて下さい。