統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

医学と統計(62)

2011-05-23 09:50:53 | 日記・エッセイ・コラム

情報統計研究所へのアクセスはここから.

連関規則(その2)について.

医学と統計(61)の出力結果は表2のようになっていました。
表2 「R}の出力結果
Table2_routput

・1番と2番は「晴れ」で「飛散数が非常に多い」で、信頼度( confidence )は 56% と 41%、
・3番は「飛散数が非常に多い」ときは「気温が高い」で、confidence は 75%、
・4番と5番は「雨」で「飛散数が少ない」で、confidence は 61%と 50%、
・6番と7番は「曇り」で「飛散数が中等度」で、confidence は 62% と 57%、

だと言うことが分りました。その他の数値は専門の解説書などを参考にして下さい.
この様にして、
天候とスギ花粉飛散数の連関規則を読み解くことが出来ましたが、ここで、
表3の分割表での度数を見て下さい.

表3 分割表よる天気とスギ花粉数の度数
Table3chisqjpg

よく医学関係で見かける分割表によるカイ二乗検定で、統計学的に有意であることが分ります.すなわち、天候によって飛散数に差があると言えるのですが、この様な事例では、何とも味気ないです.そこで、
図1の対応分析での布置図を見ると、

図1 対応分析による天気と花粉数の布置図
Correspon

「晴れと多数」、「曇りと中等度」、「雨と少数」の関連が、そして、「気温」がいずれにも影響していると判断出来ます.この様に、
連関規則も対応分析も特殊なものでなく、よく用いられる古典的な分割表からの情報をもとにしています.近年、
医学関係でも検診データの様に非常に大きな標本を扱う様になって来ました.何千人、何万人と言った検診でのデータマイニングでは連関規則が強力かも知れません.


医学と統計(61)

2011-05-17 10:49:13 | 日記・エッセイ・コラム

情報統計研究所へのアクセスはここからお気軽に

最近、筆者は放射性同位元素によるセンチネルリンパ節生検を受けたので、福島原子力発電所の放射能と連関・・?、連想して複雑な気持ちでした。
今回は、
連関規則(association rule)について簡単にご紹介したいと思います。
連関(association)は相関(correlation)と区別しなければなりません。また、
分割表での行列連関度である「クラメールのC係数」、「phi 係数」、「Q係数」とも違うものです。
データマイニングのように非常に大きなサイズになると、分割表ではデータの情報を表し切れません。また、分割表では度数が非常に大きくなると、僅かの差でも有意になりますので、データの情報は対応分析(correspondens)の2次元座標で視覚的に示すのが適当な場合もあります。それなら、
連関規則も分割表からの情報を集約する道具かも知れません。ここに、
ある年度(3月と4月)の気象情報とスギ花粉空中飛散数の情報があります(表1)。

表1 スギ花粉飛散数と気象情報
Table1_pollen_2
注釈:
Date=月日、Temp=気温、W.Sun=晴れ、W.Cloudy=曇り、W.Rain=雨、P.little=スギ花粉数<=10個、P.middle=スギ花粉数<=39個、P.very=スギ花粉数>=40個

このデータが連関規則の説明に適切であるかどうか、標本の大きさなどをどうか問題にしないで下さい。

データ解析[R]には連関規則分析の環境が用意されています(R2.11.1 を使用)。

pollen<- read.delim("clipboard", header=TRUE, row.names=1)
pollen<- as.matrix(pollen)
p.trans <- as(pollen, "transactions")
inspect(p.trans)
pollen.rule <- apriori(p.trans,
 parameter=list(maxlen=3, supp=0.05, conf=0.35, ext=TRUE))
inspect(pollen.rule[ c(5,6,7,8,9,13,14), ]) #有効と思われる情報を抽出

出力結果(表2)を見て下さい。

表2 「R}の出力結果
Table2_routput

次回に続きます!