P突堤2

「でにをは」別口入力・三属性の変換による日本語入力 - ペンタクラスタキーボードのコンセプト解説

未知語を複眼的に概観する

2020-01-19 | 文解析は副詞が鍵

変換メカニズムのあらましが見えなかった頃は<カテゴリ:文解析は副詞が鍵>の見通しまで勘づくのがやっとで
まだ素朴に「解析でカバーしきれない未知語はとりあえず全部カタカナ語に変換しちゃえ…いらん複雑怪奇な誤変換であがくよりよっぽどいい。」
…なんて思っておりましたが考察を深めていったほんの触りの感触では「これはどうも簡単にいく話じゃなさそうだな…」というのが頭をもたげはじめています。

品詞でいえば未知語の多くはカタカナ語/漢語複合語/接辞生産物に関わらず固有名詞の類がもっとも顕著な勢力であるかと推測します。
確かに動詞形容詞形容動詞の未知語もあるにはあるのですがペンタクラスタキーボードの別口入力マーキングの助けもあって
造語動詞の--る、みたいなものは別口入力[○R][×r]ならびにそのテ形の[て]キーがありますので新語の類はこれで凌ぐとして
非ル形動詞で純に大和言葉な未知の動詞、たとえば「などう」みたいなものをひねくりだすことも考えられなくはないですがそこまで心配するのは稀で当座の既存の辞書で大方間に合うかと思います。
ちょっと不安なのは複合動詞や補助動詞とのバリエーションですが少しラッキーなことに複合動詞は「×疑問禁じ得ない」「×駅降りそびれた」みたいな助詞抜きフレーズになりにくそうな気配が漂ってきていますので助詞・格関係をヒントに動詞部分の捕捉がシャープにできそうですので未知語との混線も和らぎそうだな…と楽観視しております。
動詞連語表現においても「~する」のサ変動詞関連にはかろうじて[便利キー・し]がありますので連用形「し」で同音混線するリスクだけは避けられますし、終止形/連体形「する」なら尺があるので未知語の受け皿として特徴検出も対応できそうであります。
あとは「~である」「~になる」「~ている」も別口パーツが効いているので問題ないでしょう。
一方形容詞は対応する別口入力のパーツがないのがちょっと心配ですが形容詞には造語生産力もあまり高くないので構想段階なら軽視しても良い、と考えます。
そして形容動詞にはもとより別口パーツ[だ][な]がありますしこちらは生産力はあるもののほぼ「--的な」やカタカナ語でいけると思いますのでこちらも性質は悪くないと思います。
最大の懸案が「活用なし用言」なのですがこれの考察は後に回すこととして今は品詞視点や通常変換での振る舞いに注目していきつつ話を進めていきたいと思います。

さて文解析の次なるフォーカスは助詞(でにをはのような単文字ではなく複数文字助詞)の類(さえ・より・から・まで・くらい・ほど・しかetc...)などや
(みたい・ばかり・まま・副助詞のほど・だけ・がち・あげく・~といい…といい・~みたい・~のおりには・打ち消し+じまい...etc)などのような文法的機能語などでありますが
文法トピック的には内容語と機能語の対立みたいな切り口でいくと文の個々の素材となる名詞/体言は未知語候補の筆頭に控えるという見通しが容易に立てられますが、
叙述においても副詞の作用込みであったとしても文の実質としてはたらく「内容語」としての動詞・述語は主語客語を携えて配置されるのが大きな構造上のヒントになりますし
体言を修飾する装定ならば終止形と同型であるとはいえ体言に前置される配置上の特性で見立てはつきそうですし最低限「Ø」(新別口入力の区切り要素:ゼロ文字マーカー)の助けを借りればセパレート認識できます。
また、「ひどく(形容詞の副詞的用法)疲れた様子だ」「期待に応えるよう(動詞の副詞句形成)頑張ります」みたいな連用修飾の検出は動詞検出それ以前の≪通常変換プロセスでは副詞の捕捉を最優先にする≫の方針を定めていますから、
活用変化にもなんとか追いついて捕捉のフィルターは有効にはたらくことを期待しています。
機能語全般に関していえば助詞のほうは付属語として他の語に後接しているのでいきなり登場するものでない吸着力があります。体言に接続する格助詞のほとんどは「でにをは別口入力」ですでにカバーしておりますので、残る接続助詞・副助詞(終助詞は別として)は単文字ではない2文字以上のものが残るわけでそれならいくらか捕捉も目途が立つというものでしょう。
その他の機能語のほうは未知数ではありますが今後の考察でなんとか解決するということで…空手形ではありますが同様にやっていければ良いと思っています。

…と、ここまで書いてきて勘の良い読者の方ならすでにお気づきでしょうが、通常変換(モダリティやひらがな表記規範重視)のプロセスと動詞・述語検出(副詞と対応付けたうえでの)のプロセスは並行してはいますがこの両者の微妙な差異をにらみつつ、私としてはある狙いのもとに「(未知語でない素材の)捕捉・検出フィルター」を追い込み猟のごとく誘導していって
通常変換で濾しとった残留物は<未知語カタカナ or 漢語複合語 or接辞複合語>だけになるように文解析の網を張っていこうと目論んでいるのです。
ここまで素性を絞り込めればあとはオールカタカナにするなり、複合語解析をその対象だけ局所的に走らせたりとにかく文法的些末な構造展開に惑わされることなく枠をはめて未知語の扱いに一定の指向性をもたせることができます。
他の日本語IMEには複合語変換のための入力モードを用意してある例もあるのですが私としては通常の変換モードのままで恒常的に未知語解釈ができるような設計を望んでいます。

さらに考察を続けていきます。
残る大きな問題は「さまざまなバリエーションを持つ終助詞」の検知とさきほど後回しにしていた「活用なし用言」の検知であります。
日本語の終助詞は役割語であるとかモダリティ・含意ニュアンス・キャラ語尾などの膨大な変化バリエーションがあるのでこれをもれなく辞書データ化するのは現実的でありません。
一応別口入力パーツにも用法兼務の端くれとして、格助詞でない「が」「か」や形容動詞の活用語尾でない「な」の使用も許容する方針でやっていますが数多の終助詞の前には焼け石に水かも知れません。
ただ、ユーザー定義別口入力に設定出来るようにしてしまえば良いというのは筋が悪いですし、[Ø]キーでセパレートしてしまうやり方も推奨しません。
それはセパレートしてしまうとバラバラになってしまうので一体のフレーズとして変換学習ができなくなってしまうからです。
終助詞の正しい変換に特効薬みたいなものはなく、初回の入力時には[かな][カナ]キーで末尾から修正編集するであるとか粒シフトでの粒度操作からの修正編集などで一度コンピューターにワンフレーズとして途切れさせずに学習・解析させて
二回目以降の学習結果の反映をもってユーザーの望む終助詞の「クセ」みたいなものを咀嚼した成果を出せれば良いのですが…。
これは単に文字列だけを切り張りするような形だけの学習ではなくて、タイプを見定めて助動詞的な終助詞なのか、「~でゲソ」みたいな「である文」との類似系のものなのか「~どす」みたいに「ですオルタナティブ」なのか「~したのじゃ」みたいに「だオルタナティブ」なのか
配置上・機能上のタイプ分けを酌んで変換・チャンク捕捉をおこなえるようにすればよいかと思います。口で言うのは簡単ですけれどこれものちのちの課題になりそうです。

残るは「活用なし用言」ですね。これは
・~みたいな話がチラホラ
・フィギュアがズラリ
・今までで一番まとも
・これは失敬
…のような語尾に活用がない用言なのですが解析上は活用がなければ名詞なのか用言なのか区別がつかないところなので地道に収集していくしかないですね。
名詞なら複合語に溶け込むパーツにもなりますので分解能をあきらめることができますが、叙述は文の命題を締めるところなので述語は述語としてキッチリ"回収"していきたいところなのです。

・戦略見直し必至
・可愛い盛り
・揚げたてホヤホヤ
…のように助詞抜きで接尾辞的に結合しているものもありますがこれは直前の「見直し(というアジェンダの導入)」からの「必至(という結の展開)」という複合物の重心であるとか
「可愛い(形容詞連体形)」からの「盛り(名詞然としてはいるが叙述の向きもある)」で一体感の強い叙述フレーズの形成をみることであるとか
「揚げたてホヤホヤ」とか「追い込みジワリ」みたいなのは(オノマトペのトピックはここでは別として)パーツの叙述感として主語客語からの連結以外のニュアンスづいたところからの連結をこれを叙述フレーズとみなせるかとの構造洞察がはたらくかどうかの試金石となるような語群もあります。
なにより誤解してほしくないのは、「同音語としてカブることの無いようなものまで逐一把握しなければならないものなのか?」という疑問を持つ方もおられるのでしょうが、でにをは別口入力をそなえた変換プロセスにおいては品詞ベースの文解析の重要度は低くなりそのかわり文の成分であるとか機能配置の力学をより重要視していこうというものなのです。
先程の「見直し必至」にしましても「×見直し必死」にならないようにするためにはここが語末の叙述要素なんだなという前提がわかっていて初めて適切な語を選好できる場面というのは頻繁に起きていきます。
ある部分が文章中でどの展開を演じるているのか知ることは大事です。オチに来るのかしょっぱなに位置するのかで衣装を変えるみたいなものであります。
ましてや堅苦しくどんな叙述のタイプなのかを克明に知ることだけに汲々とするのではなく、フレーズの末端に注目してこの文字列ならFix許容できる/この文字列だけ浮いて終端なのはFix違和感がある…これくらいのセンサーは持っておきたいところであります。文法上の厳密性とは別の、末端局所の見切りをどうするかという実際的な問題も大きいのであります。

最後に通常変換においては副詞を最優先に検出する、との方針でありますが
「機能買い物へ行った(○昨日)」、「終了とれなかったな(○収量)」みたいな誤変換を防ぐうえで文の導入部で出てくる語は副詞であったり話題導入のアジェンダ名詞である率が高いのでこれに機先を制する意味でも副詞の検出は欠かせないものとなっています。
しかも副詞/アジェンダ名詞にはてにをはを伴わないで省略されるものやそもそもまるっとひとフレーズ助詞なしで泰然と置かれるいわゆる"ソリチュード"なものが多いのもチャンク把握を困難にさせる要因であるのでまず第一に初動対応が大きな注意点になっていきます。
副詞の後にもずらずらと文は進んでいきますので文解析が始まったばかりのところでつまづくわけにはいかないのであります。


簡単なまとめとしましては、

副詞/アジェンダ名詞の検出>既知語の名詞(主語客語)の検出>活用あり用言(助動詞付随含む)の検出>活用なし用言の検出>…>残留物(未知語カタカナ or 漢語複合語 or接辞複合語)の処理

のような優先順位で構文解析を仕立てていきたいと思っております。
まだおぼろげながらしか輪郭が見えていませんが今記事の収穫としては文解析において品詞前後の接続でみるよりも文全体の中での機能/成分を強く意識したこしらえにしたほうがいい、という方向性が見えてきたことでしょうか。

 


この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« フォース フレンズ ギガが減... | トップ | 異業種フィールド横断ビジネ... »
最新の画像もっと見る

文解析は副詞が鍵」カテゴリの最新記事