ふと思ったことを、気の向くままメモしてるので、話の内容はめちゃくちゃですが。。
ブログの情報によるセマンティックウェブを作ると考えた場合、
(1)ブログの記事から重要語を取り出し
↓
(2)それにRDFなどをつかい、セマンティックな内容を定義し
→この作業を自動化しないと、たいへんなことに?
↓
(3)それを検索に利用する・・・
と考えるとおもうんです。
でも、こうすると、(2)の作業ってたいへんですよね・・
で、おもったんだけど、
(1)ブログの記事から重要語を取り出し
たときに、調べようとする単語のクラスが決まってしまえば、そのクラスが必要とする属性って言うのも決まってしまうと思うんです。
たとえば、「イチロー」と書いてあったら、野球選手なわけで、野球選手として、検索上欲しい情報っていうのは、大体同じで、そーすると「野球選手」は、クラス化できると思うんですよ。
そこで、こういうルートを考える。
(1)ブログの記事から重要語を取り出し
↓
(2)重要語が、どのクラスに属するかチェック
↓
(3)クラスで必要となる属性それぞぞれにについて、
係り受け関係から、属性値を拾い出す
↓
(4)それをセマンティック化すれば、セマンティックな検索も・・
で、どういうクラスにどういう属性が必要になるかというのは、
重要語の修飾関係から、どういう種類の言葉が修飾しているかをしらべると、ある程度自動的に出てきそう・・
さらに、どんなクラスがあり、クラスの親子(上下)関係をきめるのは、Wikipediaとかを解析すれば、大体始まりは、何々はXXっていう書き方なので、それを、何々→XXのように、親子関係にしていき、処理すれば、クラスは自動的に出てきそう。
つまり、
・Wikipediaから、もののクラスの関係を出す
・ブログなどから、重要語を取り出し、その語が属するクラスを割り出す
・そのクラスの属性をもとに、かかりうけ関係から、重要語と属性値を割りだし
・それをもとにセマンティックな検索をする。
・クラスの属性は、重要語と共起する言葉から割り出す。
なんてかんじかな。。
すみません、まとまってない話で・・
ちょっとおもいついたことをメモしただけなので。。