電網郊外散歩道

本と音楽を片手に、電網郊外を散歩する風情で身辺の出来事を記録。退職後は果樹園農業と野菜作りにも取り組んでいます。

上田太一郎『事例で学ぶテキストマイニング』を読む

2014年07月14日 06時03分24秒 | -ノンフィクション
共立出版から2008年に刊行されたB5判の単行本で、上田太一郎編『事例で学ぶテキストマイニング』を読みました。読んだとは言っても、ぱらぱらと眺めた程度で、とても読了とは言い難いものです。まあ、最初の章くらいはなんとか理解できるところがあった、という程度でしょう。

数値やコード化されたデータなどから、情報や知識、知見、仮説あるいは課題などを発見することを、鉱山から鉱石を発掘することになぞらえて、データマイニングと呼びます。同様に、自然言語文からなるテキストから情報や知識、知見、仮説あるいは課題などを発見することを、テキストマイニングと呼びます。本書では、テキストマイニングを、

大量のテキスト(文字)データから新たな事実や傾向を発見することを支援する技術

と定義しています。その用途としては、

(1) アンケート分析 自由記述らん等
(2) コールセンター問合せ分析 書き起こしテキスト
(3) 営業報告分析 日報、週報、月報など
(4) 不具合報告書分析 不具合報告書
(5) ブログ分析 ブログ記事

などを挙げています。そして、これらを支える自然言語処理の技術として、

(1) 形態素解析 単語に分割、品詞を求める
(2) 構文解析 文節に分割、分節間の依存関係
(3) 意味文脈関係 文と文との間の意味関係
(4) 応用処理 自動翻訳、文書分類、文書クラスタリング、文書検索、文書要約、情報抽出、等

などを挙げています。形態素解析のツールとしては、京都大学の黒崎禎夫教授らの「JUMAN」や、奈良先端科学技術大学院大学の松本裕治教授らによる「ChaSen」などを紹介しています。

以下、難しいことは省略しますが、なるほど、です。
私がこれまで(平成の初年頃から)自己流でやってきたアンケートの自由記述の分析、すなわち「テキスト入力→awkによる単語分解→単語の頻度分析→イメージマップ→要約」という手法は、まさに私流のテキストマイニングであったのだな。そして、私のような傍流ではなく、技術の本流においては、そのツールは様々な専門的分析のために開発され進化してきているのだな。

今の仕事では、まず大量テキストデータの処理などという場面は考えにくく、今後はテキストマイニングの技術を活用する場面はなくなるでしょうが、このブログのおよそ10年分のバックアップデータから、個人的に必要なデータを発掘し再利用するためには、十分に役立つことでしょう。このあたりが、施設設備も資産も必要としない、コンピュータ技術のありがたさです。

コメント