P突堤2

「でにをは」別口入力・三属性の変換による日本語入力 - ペンタクラスタキーボードのコンセプト解説

初めて訪問された方へ

P突堤2へようこそ!
キーボードの配列・機能の説明はこちらです。
お知らせや補足事項なども表示してあります。

語と語のつながり方を考慮して変換する

2016-10-04 | 変換エンジンのこと
AI変換、用例変換、格フレーム変換、係り受け変換、trigram、共起情報、コロケーションなどのワードがいっせいに押し寄せ混乱しつつも脳裏をよぎっているのですが少し整理してみたいと思います。
まずAI変換は従来の用例変換の進化系でMS-IME97やATOK8などから市場で使われだした技術で、それまでの用例変換が文法上・係り受けなどの接続用例から変換していたものが、AI変換ではより高度になって前後の文脈や意味関係を認識したうえでの変換が可能になっているとされています。
各社のAI変換の指し示す内容にはやや違いのあるものの特にMS-IME97のケースにおいては非常に参考になる記事を見つけたのであげておきます。
(引用)AI変換では、形態素解析だけで文節区切りを決定するのではなく、意味解析を行った結果をフィードバックして決定を行う。したがって、複数の文節区切りが考えられる場合でも、より適切な変換結果を提示できることになる。(MS-IME97徹底研究)・日本語入力プログラムについて考えるより

要は隣り合わせあるいは複数の文節にまたがる2~3単語間の関係性のデータベースを保持管理して文脈に応じた変換を判断するのに使うしくみにおいて使われ、その内容を記述するのに重要な役割をもつ専門用語群なのですね。

AI変換であるとか用例変換という言葉自体は消費者向けの商品アピール文句で使われていたり、格フレームについては自然言語処理・認知言語学的な色彩が強く、共起についてはコーパス言語学や言語統計で使われており、
trigramという言葉はN-gramのN=3の時のモデルでN-gram(+統計)の意味そのものは<ある文字列の中で、N個の言語単位(文字や形態素、品詞など)が出現する頻度や共起パターンを分析するための言語モデル>を意味しています。全文検索技術の文字列解析の分野のトピックで使われることが多い言葉です。これと関連してMicrosoft IME 2007で採用された変換エンジンのアルゴリズムではTrigram/SLM(Statistical Language Model:統計的言語モデル)という手法が用いられています。
さらにコロケーションは<類語。二つ以上の単語の慣用的なつながり。連語関係>とあって統語論・語彙論的な側面を強く持つ言葉です。
これらの言葉は時にジャンル横断的に使われているものの、おおむね掘り下げる分野によって微妙に使い分けられている術語のようです。

いろんな用語がありますがいずれにしても直前の変換確定結果に惑わされることなく意味・用例に適った変換をするためにベースとなる基本の仮名漢字変換エンジンにプラスアルファではたらき、変換候補の優先順位を吟味する段階において意味用例の関連情報やつながりやすさのデータを参照し最適な候補を選び出すのを支援する重要な機能であることがわかります。
例が適当であるかわかりませんがひとつ挙げてみると、
(例)
住まいが大阪に移る を変換した後に
この写真の場所は大阪に映る がきちんと変換されていれば理想的な用例変換あるいはAI変換が機能しているのを実感できるのだと思います。(現在使用中ののIMEでは正しく変換されませんでしたが)

いきなりかな漢字変換アルゴリズムの基本、最長一致法コスト最小法をすっとばしてややこしい話をしてしまいましたが、これらについていずれ説明したいのは山々なんですがなにせ基本事項ですから技術的に間違っていることを書くわけにはいかないですし、例文も良さそうな例も浮かんでこないので後回しになってしまいました。
これらの解説についてはいつになるかはわかりませんが図入りで説明できたら図を添えて、できなかったらテキストで軽く説明したいと思います。

まあそれというのもペンタクラスタキーボードでは「でにをは別口入力」があるのでコスト最小法を当てはめるにしても助詞や助動詞などが解析せずとも断片化して未変換文字列中に散在しており扱いが特殊そうであることが問題でして、そういったIMEの基本変換アルゴリズムとの兼ね合いをうまく構築するに未だ至っていないので説明不足も致し方ない部分もあります。
専門知識はないなりに「でにをは別口入力」の特徴を活かした変換アルゴリズムの大まかな青写真くらいあってもいいものですがいまだ探求中でありひょっとするとこれが一番の難題かも知れないと感じ始めております。今後ペンタクラスタキーボード入力に最適な変換エンジンのカタチを模索するうえで「でにをは別口入力」などのイレギュラーなファクトは、整然と体系化されたコード手法にはかえってノイズとなってしまう危険性が懸念されるところです。

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする