情報統計研究所(統計分析のご相談ご依頼)のアクセスはここから。
データ変換について。
ここでのデータ変換とは 2項分布をするデータに対して、逆正弦変換(以下、ASIN)を行いデータを正規分布に近似させる方法です。
「やさしい医学統計手法」の、下記項目をご参考にして下さい。
**
1章
1.3.4 データ変換の仕方
2章
2.2 正規分布について
**
例えば、
鼻アレルギー疾患者の血中の好酸球(Eo)を白血球数の割合で示した Eo% のデータが
表1 であったときのデータの分布( ヒストグラム )は 図1 のとおり歪んでおり、正規分布と
程遠いものです。
図1 Eo%の ヒストグラム
基本統計量(単位:%)
Min 25%tile Median 75%tile Max Mean SD
0.4 2.9 5.5 9.25 25.2 6.57 4.55
( SAS-JMP の結果)
表1 のデータ(Ⅹi ) を ASIN ( sqrt ( Ⅹi/100 ) ) で変換すると表2 のラジアン(単位)となり、
図2 のように正規分布に近似させることが出来ます。角度で表す時は ASIN値×180/pi () にします。
図2 ASIN変換値のヒストグラム
基本統計量(単位:ラジアン)
Min 25%tile Median 75%tile Max Mean SD
0.063 0.171 0.237 0.309 0.526 0.244 0.09
( SAS-JMP の結果)
この様に、ASIN変換でデータを正規分布に近似させ、2群間や多群間(一元配置分散分析など)を行います。例えば、
鼻アレルギー疾患者のEo% をその症状の程度によって、次の2群に分けたとします。
Eo% 統計量(無変換値)
n mean±sd 等分散の検定 平均差検定
1群 88 7.48±4.98 Levene p=0.0063 t- test ( p=0.0026 )
2群 123 5.68±3.62 Bartlett p=0.0013 welch ( p=0.0044 )
Eo% 統計量(ASIN変換値)
n mean±sd 等分散の検定 平均値差検定
1群 88 0.262±0.096 Levene p=0.1265 t-test ( p=0.0053 )
2群 123 0.228±0.082 Bartlett p=0.1098
上記の2群間の平均値差検定結果はどちらも統計的に有意ですが、p値を見ると正規分布を仮定したASIN変換値の方が厳しいようです。この様な例題ではASIN変換で統計的検定を行ってみて下さい。