情報統計研究所へのアクセスはここからお気軽に
最近、筆者は放射性同位元素によるセンチネルリンパ節生検を受けたので、福島原子力発電所の放射能と連関・・?、連想して複雑な気持ちでした。
今回は、
連関規則(association rule)について簡単にご紹介したいと思います。
連関(association)は相関(correlation)と区別しなければなりません。また、
分割表での行列連関度である「クラメールのC係数」、「phi 係数」、「Q係数」とも違うものです。
データマイニングのように非常に大きなサイズになると、分割表ではデータの情報を表し切れません。また、分割表では度数が非常に大きくなると、僅かの差でも有意になりますので、データの情報は対応分析(correspondens)の2次元座標で視覚的に示すのが適当な場合もあります。それなら、
連関規則も分割表からの情報を集約する道具かも知れません。ここに、
ある年度(3月と4月)の気象情報とスギ花粉空中飛散数の情報があります(表1)。
表1 スギ花粉飛散数と気象情報
注釈:
Date=月日、Temp=気温、W.Sun=晴れ、W.Cloudy=曇り、W.Rain=雨、P.little=スギ花粉数<=10個、P.middle=スギ花粉数<=39個、P.very=スギ花粉数>=40個
このデータが連関規則の説明に適切であるかどうか、標本の大きさなどをどうか問題にしないで下さい。
データ解析[R]には連関規則分析の環境が用意されています(R2.11.1 を使用)。
pollen<- read.delim("clipboard", header=TRUE, row.names=1)
pollen<- as.matrix(pollen)
p.trans <- as(pollen, "transactions")
inspect(p.trans)
pollen.rule <- apriori(p.trans,
parameter=list(maxlen=3, supp=0.05, conf=0.35, ext=TRUE))
inspect(pollen.rule[ c(5,6,7,8,9,13,14), ]) #有効と思われる情報を抽出
出力結果(表2)を見て下さい。
次回に続きます!