統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

医学と統計(65)

2011-06-23 10:08:10 | 日記・エッセイ・コラム

情報統計研究所へのアクセスはここから.

テキストマイニング分析ソフトの使用経験(その3)

「補足」:
★先号(64)でのHTMLタグ(h2~h6)はホームページ言語でのことで、「KH Coder」のマーキングではありません。
★KH Coderの著作権は立命館大学産業社会学部 現代社会学科准教授 樋口耕一 先生が保持しています(http://www.ritsumei.jp/ss/ss07_01_i.html  からの情報です)。

それでは、
下記の図3で示した「 KH Coder のディレクトリー階層 」の「kh_coder.exe」をダブルクイックして「KH Coder」を起動して下さい。

図3:KH Coder のディレクトリー階層
Khcoderdirect3

起動後は、使用説明書の通りにやれば良いのですが、下記に要領を示しておきます。

● 初めに、プロジェクトの作成を行います。
「プロジェクト(P)をクリック」→「新規をクリック」→「対象ファイルの参照をクリック」→「DocterQuestion.txt を選択」→「開く(O)をクリック」→「OKをクリック」→
「現在のプロジェクト」に DocterQuestion.txt と表示されていればOKです。
次回からは、
「プロジェクト(P)」→「開く」→「プロジェクトマネージャ」→「DocterQuestion.txt を選択」→
「開く」

を実行して下さい。
● 前処理の実行を行います。
「前処理(B)をクリック」→「分析対象ファイルのチェック」→「OKをクリック」→
「・・・・・・前処理を安全に実行できると考えられます」と表示されたら→「OKをクリック」

そして、
「前処理(B)をクリック」→「前処理の実行をクリック」すれば、
計算単位とケース数が、(文、段落、H1)(109、106、3)と表示されます。

以上で分析の準備が終わりましたので、「KH Coder」に用意されている分析ツールを使ってみましょう。

1.ツール(T)→抽出語→抽出語リスト→オプション
  ・抽出語リストの形式:「頻出150語」を選択
  ・記入する数値:出現回数(TF)
  ・出力するファイル形式:Excel (*.xls)
2.「OK」をクリック
  ・DoctorQuestion_temp0.xls が作成される(DocterQuestion.txt のあるフォルダー)
3.「DoctorQuestion_temp0.xls」は図4の様なものです。

図4 作成された抽出語のリスト
Freqtable

Excel で棒グラフにすれば分り易いでしょう(図5-a、図5-b)。

図5-a 抽出語リストの棒グラフ(1)
Docterquestionfreq1

図5-b 抽出語リストの棒グラフ(2)
Docterquestionfreq2

「KH Coder」には、もっと専門的な統計学的方法が用意されています。

次回に続く!