P突堤2

「でにをは」別口入力・三属性の変換による日本語入力 - ペンタクラスタキーボードのコンセプト解説

初めて訪問された方へ

P突堤2へようこそ!
キーボードの配列・機能の説明はこちらです。
お知らせや補足事項なども表示してあります。

誤変換を起こさないために--文の解析において重要なのは副詞

2018-11-28 | 文解析は副詞が鍵
長らく言及することを避けていた変換メカニズムの根本、ペンタクラスタキーボードにおける解析エンジンは実態としてどのように動いているのか…についてですが、なかなか至りませんでした。
ここを説明するためにまずかな漢字変換の基本的な仕組みとして代表的な「最長一致法」と「コスト最小法」について皆さんに資料をお見せしてから考察に入りたかったのですが、
なかなかうまい例文が思い浮かばず、ちょっと時間が取れなくてというのもあって先延ばしにしていました。
もっとも、自分は素人ですからちゃんとしたプログラミング知識・文法知識ももたないままでおぼろげながらの骨子をうまく言語化できなくて必然的に手を出せずじまいでいた、というのが実情ではありますが(^^;)

…ですがそろそろ重い腰を上げてこの難題にも着手していきたいかと思います。
もちろん練り込み不足は否めず論旨も稚拙だとは思うのですが、まずはアウトプットを自分に課してこのトピックを継続的に追っていきたいということでここに掲げる次第であります。
そしてこれに伴って新カテゴリ「文解析は副詞が鍵」を追加したいと思います。
まだ全体像が見えていないので、うかつに「基本解析アルゴリズム」なんて大仰なカテゴリ名はつけられませんから、とっかかりとして着目した副詞との関わりをそのままにテーマに据えてみたという次第です。


さて、ペンタクラスタキーボードでは「でにをは別口入力」で助詞の境目があらかじめマーキングされているのでおおかたの名詞チャンクの目星はつきやすく(未知語であるとしても)、
文の構成素材はなんにせよまな板の上に乗せることができるので、あとは叙述がどうなっているのか、接続詞やモダリティ・アスペクトの組み立てをどうとらえるかのタスクに焦点を当てて解析を進めていけばよい、という筋道が自ずから見えてきます。
そこでにわかに重要性を帯びてくるのが、叙述に深いかかわりのある副詞というわけです。
名詞述語文、第三形容詞ときて、新たに文末名詞や体言締め文(人魚構文)なども知るようになり一大勢力となった叙述部品。
これらを隅々まで精緻にルール化するのは至難であるので、それらを際立たせる意味ではたらく副詞/副詞句/副詞節を述定部品の重要なシグナルと捉え外堀から攻める意味で副詞的なものを追求していく方針を立てました。
文の素材(体言類)、述定部品(用言類)に次ぐ第三勢力でありますが文の収束を方向付ける文字通りキャスティングボートを握る存在であるということに着目して、これを文解析においてもれなく検出することでまずは構文解析の足掛かりにしようという目論見であります。
文の素材となる要素(体言)にはたいてい別口入力がくっついておりますし、述定部品は活用があり連体形なら体言の前、連用形なら後に続くのは用言や助動詞、未然形は「--ない」や「--よう」の前に来るなど配置と活用の特徴から存在を把握できるのですが、
副詞は無活用なものも多く前後脈絡の判然としない配置のもの(機能/昨日・欠航/結構・糖分/当分・一杯/いっぱい)や時には何か特定の話題について言っているものと区別しづらいもの(ガンとして/頑として・余りに/あまりに・以外に/意外に・用は/要は・檻から/おりから)
など不確定要素の多い"要注意人物"であることが多いのでまずはこの逸脱の源を押さえておくことが肝要であります。

一筋縄ではいかないことは重々承知してはおりますが、楽観的希望をもってイメージを膨らましてみますと、解析が上首尾にいくなら
副詞の「すごい」はひらがなで、形容詞の「凄い」は漢字で…などと表記を使い分けるような芸当や「予約後ホテルに向かう」(避「予約語」)みたいに接尾辞化している副詞なども文での登場配置から適切に推し量ってくれるような機能を目指しています。
特に活用もなく助詞もつかない漢語系の副詞には手を焼きそうですので「機能ラーメンを食べた」みたいにいきなり「機能」がでるのは不自然であるとわからせるにはどうすればいいか、そしてそれなら「機能」が自然に使われているときの諸条件は何か、
「○○機能」みたいに接尾語パーツで連接するときや「ブルーレイレコーダー[の]機能」や「機能[を]比較する」みたいに助詞との関わり方をヒントに「ここにいていい確度」を比較判断することでうまくメカニズムを構築できればよいと思っています。
まだ試行錯誤中でベースラインすら見えてきてはいませんがこのカテゴリでの考察で文法的・語彙的・コロケーション的などさまざまな視点から掘っていこうかと思っております。
とりあえずモデルを考えては壊し、考えては壊し、とプロトタイプのできるところまで煮詰めていければ何か輪郭がつかめるハズですし、良い意味で現在進行形のライブ感覚でアイデアをひりだすのが自分の流儀というか、定めですね。

とにかくペンタクラスタキーボードの構文解析においては別口入力のおかげで品詞推定をするコストが大幅に軽減されますので品詞接続規則にもとづいて接続可能性を解析するという常道も見直さなくてはいけません。
品詞から語彙レベルの接続可能性をベースに置くべきなのか、あるいはこれまでは単文字の助詞が邪魔してワード切り出しがそもそも困難だったのでむしろ品詞志向の統語特性分析が活きるのはこれからなのだ、といった議論も出てくるかと思います。
それにくわえて、文の生成というのは経時的・シーケンシャルな有りようで成り立っているので、副詞部分に差しかかった時に発話の調子が上がるなどといったニュアンスを汲み取っていくのを活かせないかなど新しい試みを混ぜていこうかなと思っています。いわば、音韻論からの見地です。
…と、このように見境なく風呂敷を広げてしまいましたが、ペンタクラスタキーボード、別口入力を前提としたフレームワークの中での最適形は何かということを忌憚なく探っていきたいと思いますのでよろしくお願いします。

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする