2011年8月4日のブログ記事一覧-統計ブログはじめました！

医学と統計(68)

2011-08-04 10:28:30 | 日記・エッセイ・コラム

情報統計研究所へのアクセスはここから．

テキストマイニングにおける階層クラスター分析

前回と同様に、
KH coder に用意されている階層クラスター分析を敢えて統計解析環境「R」でやって見たいと思います。

サンプルデータを下記URLからダウンロードしておいて下さい（クラスター分析sample）。
http://www3.ocn.ne.jp/~stat/dbase/dbase.html

やり方は前回と同じです。
ダウンドーロした「clusterDATAforR．xls」のファイルを MS Excel で開き、「ID」の項目を除く
緑色列の項目名を含む全てをクリプボードにコピーして下さい（単に、データを選択しコピーする）。
そして、
「Ｒ｝の起動画面で、
dat<- read.delim("clipboard")

「Enter」キーで「Ｒ」にデータが取り込まれますので、「dat」→「Enter」でデータを確認して下さい。
読込んだデータの縦列と横列を次により入替えます。
d<- t(dat)
d

確認出来ましたら、次のコマンドを実行して下さい。
library(amap)
cluster.d<- Dist(d, method="binary")
cluster<- hclust(cluster.d, method="ward")
plot(cluster, hang=-1)
rect.hclust(cluster, k=3, border="red")

これだけで、
図１の階層クラスター分析の結果（デンドログラム）が得られたと思います。

図１　デンドログラム

前回の「対応分析」と比較したりして、医師アンケートの要約などなどに
利用すれば情報の把握に大いに役立つと思います。

2011年8月
日	月	火	水	木	金	土
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

統計ブログはじめました！

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

医学と統計(68)