統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

医学と統計(68)

2011-08-04 10:28:30 | 日記・エッセイ・コラム

情報統計研究所へのアクセスはここから.

テキストマイニングにおける階層クラスター分析

前回と同様に、
KH coder に用意されている階層クラスター分析を敢えて統計解析環境「R」でやって見たいと思います。

サンプルデータを下記URLからダウンロードしておいて下さい(クラスター分析sample)。
http://www3.ocn.ne.jp/~stat/dbase/dbase.html

やり方は前回と同じです。
ダウンドーロした「clusterDATAforR.xls」のファイルを MS Excel で開き、「ID」の項目を除く
緑色列の項目名を含む全てをクリプボードにコピーして下さい(単に、データを選択しコピーする)。
そして、
「R}の起動画面で、
dat<- read.delim("clipboard")

「Enter」キーで「R」にデータが取り込まれますので、「dat」→「Enter」でデータを確認して下さい。
読込んだデータの縦列と横列を次により入替えます。
d<- t(dat)
d

確認出来ましたら、次のコマンドを実行して下さい。
library(amap)
cluster.d<- Dist(d, method="binary")
cluster<- hclust(cluster.d, method="ward")
plot(cluster, hang=-1)
rect.hclust(cluster, k=3, border="red")

これだけで、
図1の階層クラスター分析の結果(デンドログラム)が得られたと思います。

図1 デンドログラム
Clustetreeedit

前回の「対応分析」と比較したりして、医師アンケートの要約などなどに
利用すれば情報の把握に大いに役立つと思います。