現代日本語百科   けふも  お元気ですか

gooブログはじめました!日本語百科です。
現代日本語百科 ⓒ2013gooksky

文節 続々

2015-10-03 | 日本語文章
文節は日本語の自立語付属語という語をよくとらえた分析である。その分析による応用は言語の機械処理に応じている。文節により得られる文の構成は、文節を単位に短くも長くもその単位にして、その語を決定することが可能である。


http://www.ikd.info.gifu-u.ac.jp/ibukiC/about_ibukiC.html
日本語文節構造解析システムibukiC

 一般に文節機能語部は自立語および機能語間の接続規則によって連接可否(あるいはその程度)を判定することで解析を行っていますが、機能語として辞書に登録する単位は様々であり、「て」「しまう」「た」のように短い単位で登録することも可能ですし、「てしまった」のように長い単位で登録することもできます。
 前者の場合,登録する機能語はごく少数で済むが、接続規則の設定が複雑になり、誤った機能語部の表現を生成してしまう可能性があります。また、機械翻訳等の応用システムでは、それらを要素合成的に処理しなくてはならなくなり、複雑になります。一方、後者の場合、接続規則は単純になり、意味的扱いが錯綜し複雑にはならないという点では有利です。
 そこでibukiCでは「までもが」や「なかっただろう」などのように連続する複数の助詞・助動詞をひとまとめにした長単位の機能語を用いています。
 また、「にあたり」「に対して」などのような自立語の機能的表現なども、長い単位の機能語として登録しています。これにより、こういった表現は(年頭にあたり)と1文節で解析されます。

 ibukiCは、単語を切り出すいわゆる形態素解析だけでなく、 係り受け構造を意識した文節単位と文節内の構造を抽出することを目的としています。 文節の機能語部分は、意味的なまとまりとしてとらえやすい長めの単位を採用し、 また“「ね」で区切れる単位”などとされる通常の文節単位にこだわらず、 係り受けの単位として合理性があると我々が考える単位を設定しています。

>ibukiC で付与する文節構造は
「文節カテゴリ(23 種類:主に自立語の品詞を表す)」、「自立語」、「自立語品詞」、「機能語部を最大6 つに分割した各要素」、「係り先情報(連体,連用,など17種類)」、「句読点」の情報から構成すると定義しています。

最新の画像もっと見る

コメントを投稿

ブログ作成者から承認されるまでコメントは反映されません。