P突堤2

「でにをは」別口入力・三属性の変換による日本語入力 - ペンタクラスタキーボードのコンセプト解説

格フレーム処理・共起用例を考慮した変換全般のの雑想メモ

2017-08-27 | 変換エンジンのこと
ジャストシステムの日本語入力エンジン ATOK 30周年記念サイトのページに、以下のような記述が見られます。
// 「人が泣く」と「動物が鳴く」では、同じ「なく」の読みに対して違う漢字を使います。
// ATOKの辞書に「犬」や「猫」などを登録する際には、「動物」という情報も付与しているので
// 「犬が鳴く」と変換できます。
連載 ATOKの“かしこさ”の秘訣とは?|ATOK 30周年記念サイト|ATOK.com

…これは大変興味深い機構で、この考え方を延長していけば「太郎」や「あの子」も「人物を指すもの・人名」だと認識したうえで、「あの子が感動のあまり泣く」などといった変換も原理的には可能かもしれません。
これを実現している仕組みには、おそらく「格フレーム変換処理」というものが活用されており「動物」というクラスの下位概念に「猫」や「犬」がおかれていて、
「犬が鳴く」といった表現記述を問う時には「犬→動物の一種」;動物のアクション「なく」の相当字は「鳴く」である…と一種ののクラス集約性によってクラス参照がおこなわれ推論的に選ばれていくという高度なプロセスを辿っていることが理解できる良い例です。
これらは犬は動物の一種であるといった意味構造的な関係性までコンピュータが認識している上での処理であって単に同一同音異義語内で機械的に対応付けているだけのもの(意味関係まで理解していない)とは一段違った処理であることに留意しなければならないかと思います。

また2項以上の叙述構造の関係性において正しい変換候補を選び出すための手法として「共起」という概念も重要になってきます。
//猫を解体/猫を飼いたい
//鮪を包丁で解体/鮪を包丁で飼いたい
//巨人に先生される/巨人に先制される
参考文書:共起性を考慮に入れたかな漢字変換の試み:山形頼之 (産業技術総合研究所)IMワークショップ 2016/12/29

…「猫」は「飼う」ものですが、「解体」したらとんでもないことになってしまいます。
またこの文章の変換直後に「まぐろほうちょうでかいたい」と打ち込んだら、正しく「解体」と変換されるでしょうか。
こういった変換では「ある2つ(以上)の単語が文中に共に出現しやすいという性質 - 共起」というものをうまく利用して連接関係を正しく反映させることができます。

ペンタクラスタキーボードの通常変換においても、このような手法の成果をうまく取り入れることが必須になってくるかと思います。


あとは格関係・助詞との連接において不自然な変換などの例もみられます。
(例)
対策を寝る/対策を練る
絶対に夜食をしないと近い/絶対に夜食をしないと誓い

これらは「対策」と「練る」の2項関係の対応も重要ですが、「-を練る」のように練るに接続する格助詞「を」との用例関係の認識がより重要になってくるかと思います。
「-しないと誓い」の「-と誓い」、これは「-と近い」の例もあるので一概にには言えませんが、対応関係が事前に登録されていない2項関係の場合に正しい変換を導き出すのに必要なヒントになるかと思います。

このような述語/用言部分の誤変換とは逆に
(例)
帰社が走る/汽車が走る/記者が走る

などの例のように主語/名詞部分の誤変換の例も見られます。
先ほどの考察のように、汽車=乗り物=走るもの や 記者=人物=走るもの のような推論構造で辿ることも可能かとは思いますが、
「汽車→が」、「記者→が」はよりつながりやすい/「帰社→する」がよりつながりやすい(頻度):のようにより自然な格助詞との接続情報を持つことにも有用な意味があるかと思います。
またこの場合も対応関係が事前に登録されていない2項関係の連接情報がコンピュータの手元にないときに助詞との接続情報のデータをもとに候補を選び出すことが代替的に機能することもあるかと思います。


…とここまで書きましたが格関係の接続処理にもきめ細やかな懸案事項が種々あるのだな…と思いました。
ここでひとつWeb上で見つけた関連の深い文書を紹介したいと思います。
FI 変換 (日本語入力方式の概要と移行):oracle社の解説ページより

UNIXとWindowsで商品化されたワークステーション向けかな漢字変換システムWnn6では高い変換効率を誇るFI変換という機能が搭載されており、以下のような格関係・接続関係に対応したFI(Flexible Intelligence)変換を実現しています。
・格係り受け変換
・所有格変換
・受身変換
・使役変換
・合成語変換
・修飾語変換
・複文変換

※Wnn6はオムロン社の提供するソフトウェアですがここでは参考サイトとしてoracle社のサイトを挙げさせてもらいました。
FI変換のシステムは非常に先進的で各種の格関係処理に大きなインスピレーションを与えてくれると思いますので興味のある方はリンク先をご参照ください。


この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« 日本語の特徴を再認識させら... | トップ | 接尾語変換の拡張(1) »
最新の画像もっと見る

変換エンジンのこと」カテゴリの最新記事