情報統計研究所へのアクセスはここから.
テキストマイニングにおける階層クラスター分析
前回と同様に、
KH coder に用意されている階層クラスター分析を敢えて統計解析環境「R」でやって見たいと思います。
サンプルデータを下記URLからダウンロードしておいて下さい(クラスター分析sample)。
http://www3.ocn.ne.jp/~stat/dbase/dbase.html
やり方は前回と同じです。
ダウンドーロした「clusterDATAforR.xls」のファイルを MS Excel で開き、「ID」の項目を除く
緑色列の項目名を含む全てをクリプボードにコピーして下さい(単に、データを選択しコピーする)。
そして、
「R}の起動画面で、
dat<- read.delim("clipboard")
「Enter」キーで「R」にデータが取り込まれますので、「dat」→「Enter」でデータを確認して下さい。
読込んだデータの縦列と横列を次により入替えます。
d<- t(dat)
d
確認出来ましたら、次のコマンドを実行して下さい。
library(amap)
cluster.d<- Dist(d, method="binary")
cluster<- hclust(cluster.d, method="ward")
plot(cluster, hang=-1)
rect.hclust(cluster, k=3, border="red")
これだけで、
図1の階層クラスター分析の結果(デンドログラム)が得られたと思います。
前回の「対応分析」と比較したりして、医師アンケートの要約などなどに
利用すれば情報の把握に大いに役立つと思います。