統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

医学と統計(66)

2011-06-30 10:42:07 | 日記・エッセイ・コラム

情報統計研究所へのアクセスはここから.

テキストマイニング分析ソフトの使用経験(その4)
「KH coder」の使用説明書の通りに、下記URLから、   
     http://kstat.sakura.ne.jp/dbase/dbase.html

ダウンロードした、
「DoctorQuestion.txt 」で試していただければ良いと思います。ここでは、「コーディングルール」について簡単に述べておきます。
筆者は、
上記URLの画面に表示されている「ダウンロード(医師・患者アンケート)」からダウンロードした「Enquate.xls (sheet名:医師自由文)」の内容を、次の様にまとめコーディングルールとして「themeDoctor.txt」名で保存しました。

-----------------------------------------------------------------------------------------------------------
*患者
患者 or 来院 or 症状 or 悪化 or 説明 or 理解 or 紹介 or 病院 or 病気
*薬剤
ステロイド or 薬 or 副作用 or 漢方薬 or 強い or 薬剤 
*診断(治療)
診療 or 診断 or 疾患 or 適切 or 診療 or 丁寧 or 方法 or 原因 or 診察 or 検査 
*医師
前 or 医師 or 専門医 or レベル or 報酬 or 病状
-----------------------------------------------------------------------------------------------------------
(上記をコピーし「メモ帳」にペーストし「themeDoctor.txt」名で保存して使用する)

「KH coder」の操作:
「ツール」→「コーディング」→「章・節・段落ごとの集計」→

図6 コード出現率の集計手順
 ① コーディングルール・ファイル : 「参照」をクリック
 ② コーディング単位        : 「段落」を選択
 ③ セル内容             : 「度数とパ^セント」を選択
 ④ 「集計」をクリック

出力結果は下記の図6の様になります(編集しています)。

図6 コード出現率の編集結果
Doctorcordinng

カイ二乗値(Chi-squared)のp値は、例えば、
下記の分割表(2×3)から求められます。
--------------------------------------------------
 病院規模   患者    対照
小規模病院     40        72-40=32
中規模病院        11        17-11=  6
大規模病院          8         17- 8=  9
---------------------------------------------------

「KH coder」の使用方法については、このくらいにして、次回からは、「KH coder」に用意されている対応分析、多次元尺度構成法、階層的クラスター分析、共起ネットワークについて考えたいと思います。

次回に続く!

 

 


医学と統計(65)

2011-06-23 10:08:10 | 日記・エッセイ・コラム

情報統計研究所へのアクセスはここから.

テキストマイニング分析ソフトの使用経験(その3)

「補足」:
★先号(64)でのHTMLタグ(h2~h6)はホームページ言語でのことで、「KH Coder」のマーキングではありません。
★KH Coderの著作権は立命館大学産業社会学部 現代社会学科准教授 樋口耕一 先生が保持しています(http://www.ritsumei.jp/ss/ss07_01_i.html  からの情報です)。

それでは、
下記の図3で示した「 KH Coder のディレクトリー階層 」の「kh_coder.exe」をダブルクイックして「KH Coder」を起動して下さい。

図3:KH Coder のディレクトリー階層
Khcoderdirect3

起動後は、使用説明書の通りにやれば良いのですが、下記に要領を示しておきます。

● 初めに、プロジェクトの作成を行います。
「プロジェクト(P)をクリック」→「新規をクリック」→「対象ファイルの参照をクリック」→「DocterQuestion.txt を選択」→「開く(O)をクリック」→「OKをクリック」→
「現在のプロジェクト」に DocterQuestion.txt と表示されていればOKです。
次回からは、
「プロジェクト(P)」→「開く」→「プロジェクトマネージャ」→「DocterQuestion.txt を選択」→
「開く」

を実行して下さい。
● 前処理の実行を行います。
「前処理(B)をクリック」→「分析対象ファイルのチェック」→「OKをクリック」→
「・・・・・・前処理を安全に実行できると考えられます」と表示されたら→「OKをクリック」

そして、
「前処理(B)をクリック」→「前処理の実行をクリック」すれば、
計算単位とケース数が、(文、段落、H1)(109、106、3)と表示されます。

以上で分析の準備が終わりましたので、「KH Coder」に用意されている分析ツールを使ってみましょう。

1.ツール(T)→抽出語→抽出語リスト→オプション
  ・抽出語リストの形式:「頻出150語」を選択
  ・記入する数値:出現回数(TF)
  ・出力するファイル形式:Excel (*.xls)
2.「OK」をクリック
  ・DoctorQuestion_temp0.xls が作成される(DocterQuestion.txt のあるフォルダー)
3.「DoctorQuestion_temp0.xls」は図4の様なものです。

図4 作成された抽出語のリスト
Freqtable

Excel で棒グラフにすれば分り易いでしょう(図5-a、図5-b)。

図5-a 抽出語リストの棒グラフ(1)
Docterquestionfreq1

図5-b 抽出語リストの棒グラフ(2)
Docterquestionfreq2

「KH Coder」には、もっと専門的な統計学的方法が用意されています。

次回に続く!


医学と統計(64)

2011-06-16 10:48:07 | 日記・エッセイ・コラム

情報統計研究所へのアクセスはここから.

テキストマイニング分析ソフトの使用経験(その2)

下記の図2 で示した「 KH Coder のディレクトリー階層 」の C:\khcode\tutorial  を開くと「 kokoro2.txt 」がありますので、メモ帳で開いて下さい。
  
図2:KH Coder のディレクトリー階層
Khcoderdirect2

<H1>----</H1> と <H2>----</H2> の様にタグで括られていることが分かります。KH Coder はこの様なタグで括られたテキストを対象としています。
したがって、
「 Enquate.xls ( sheet名:医師自由文 、患者自由文 ) 」 の分析も <H1> タグで括っておく必要があります。そこで、「 sheet名:医師自由文 」をメモ帳に ”コーピ&ペースト”  して、「 小規模病院、中規模病院、大規模病院 」ごとに <H1> タグで括ります。
今回、ここでは 「 sheet名:医師自由文 」だけを下記の URL から、ファイル名「 DoctorQuestion.txt 」 をダウンロードして下さい。
(ダウンロードは「左クリック」→「ファイル」→「名前を付けて保存」をして下さい。「右クリック→対象をファイルに保存」はダメ!

http://www3.ocn.ne.jp/~stat/dbase/dbase.html

「 DoctorQuestion.txt 」では <H1> 小規模病院 </H1> 、<H1> 中規模病院 </H1> 、<H1> 大規模病院 </H1> となっています。

この<H.>タグ は Web ページ ( インターネットホームページ ) を記述するためのマークアップ言語 ( HTML:HyperText Markup Language )です。だから、余談(横道)ですが、
メモ帳に次の様に記述し、

<html>
<body>

<h1>小規模病院</h1>
 <br>急な悪化に対応で出来なかった。
 <br>原因究明と薬剤効果の確認が必要だ。
 <br>ステロイドの使用では説明が必要だ。
 <br>症状の悪化に適切な対応が出来ていなかった。
 <br>全身症状の軽減が出来ていなかった。<p>

<h1>中規模病院</h1>
 <br>難治性疾患である。
 <br>漢方薬のみで標準的治療がなされていなかった。
 <br>患者は治療すればすぐに良くなると思い込んでいる。
 <br>患者は診断名の変更で不安になり来院した。
 <br>患者は初診時の説明不足で転院する事がよくある。

<h1>中規模病院</h1>
 <br>悪性リンパ腫であり進行中である。
 <br>診療所からの紹介患者です。
 <br>診療所からの紹介患者です。
 <br>背景に医療問題がある。
 <br>前医でのトラブルで当院に来院した。

</body)
</html>

そして、
例えば、「khcoder.htm」 のファイル名で保存すれば、” Internet Explorer ”  などで開くことが出来ます。

「注釈」
 <h1> タグを <h2>~<h6> に変えて見て下さい。

次回に続く!


医学と統計(63)

2011-06-13 18:12:35 | 日記・エッセイ・コラム

情報統計研究所へのアクセスはここから.

テキストマイニング分析ソフトの使用経験(その1)

診療現場での医師と患者の自由文アンケートを要約したファイルを下記のURLからダウンロード出来ます。

  http://www3.ocn.ne.jp/~stat/dbase/dbase.html

画面の Down Loard ( 医師・患者アンケート ) をクリックしダウンロードすると、
「Enquate.xls (sheet名:医師自由文、患者自由文)」をみることが出来ます。ここでは、
このサンプル・ファイルのデータをフリーソフトの「KH Coder」を使って分析してみましょう。まずは、使用に当たって下記のURL にアクセスして下さい。

   http://khc.sourceforge.net/

そして、
「KH Coder の入手」から、Windows 版パッケージ 「 khcoder-2b25a-f.exe (2011 05/25) 」 をダウンロードして下さい。ダウンロードの後に、このファイルをダブルクリックすれば、自動的に下記のディレクトリー階層になると思います。

図1:KH Coder のディレクトリー階層

  Khcoderdirect

「KH Coder」は、ChaSen(茶筌)、MySQL( リレーショナル・データベース )、R (統計解析環境ソフト)、MS Excel  などをバックエンドとして利用していますので、これらの環境が必要かもしれません。多分、MS Excel  が使用出来る Windows OS  なら、大丈夫だと思います(保障は出来ません)。それでは、
図1 のディレクトリーにある使用説明書( khcoder_tutorial.pdf )を読み、使用方法を経験してみて下さい。

図2は次回に説明する Enquate.xls ( sheet名:医師自由文 )の一例です。

図2:医師アンケートで出現頻度の多い抽出語
Doctorfreq

次回に続く!