P突堤2

「でにをは」別口入力・三属性の変換による日本語入力 - ペンタクラスタキーボードのコンセプト解説

新語・造語・未知語の入力上の待遇① カタカナ語・ひらがな語

2020-03-04 | ジャンル横断的な問題

日本語入力をするうえで避けて通れないのはかな漢字変換エンジンの処理には常に想定可能なお行儀のよい語句ばかりで構成されているのではなく解釈困難な入力文字列が放り込まれることが往々にしてあること、これを念頭に入れておかねばなりません。
システム辞書にないワードや活用表現は最新の新語造語ばかりではなく既存の語が組み合わさって複合語をなす例なども含めれば新旧・硬軟ところかまわず無尽蔵に出てきています。
ペンタクラスタキーボードではそのような未知語や造語と対峙していかねばなりませんが今回から数回にわたってさまざまなタイプの未知語・造語にあらためて焦点を当ててこちらができそうな対策をノートしていこうと思います。いわば未知語の棚卸しです。
第一回目の今回はカタカナ語・ひらがな語に着目していきたいと思います。

まずざっくりな物言いで申し訳ありませんが、未知語と言ってもいろいろあるでしょうが概観してみますと「--する」サ変活用の未知語は語尾の「する」や[便利キー:し]などのヒントからサ変未知語の見当をつけることはそんなに難しくはないと思います。
また同じく用言の「--る」のル形動詞、これも新語造語でありそうですがこちらは別口入力の[○R][×r]のマーキングがあるので各活用形に対応することはできます。
そして別口入力「だ」「でs」は形容動詞文でもコピュラ文であっても末尾を「だ」で締める分には語幹部分は分離できているので無理に変換できなさそうな場合はカタカナ語に解釈してしまっても差支えなさそうです。
「だ」と並んで連体修飾の「--な」はより明確でカタカナ造語に相性が良さそうですし、「--である」「--になる」「--となる」等の定番表現においても「で」「に」「と」各助詞にはマーキングがついているので素性はわからなくともカタマリ感は保ちながら表記さばきをすることは問題なさそうです。
このように用言・活用のある語で未知語が生じてしまうときには別口入力の助けもあって案外イレギュラーにも強そうな感じがします。(もちろんこのほかにも周辺の付加活用だとか付随する助詞などもヒントになります)

そして副詞については新語造語の類はもとより出現率は低そうですなのですが副詞は活用的でもなく加えて「と」「に」「て」を伴わない"助詞抜き配置"が悪さをしてチャンク把握が困難になる要因ともなるので文解析においては副詞の検出を最優先にやっていくという方針もあってか「未知語見逃し」が比較的起こりにくいと考えます。
ただ数は少ないですが「ほぼほぼ」や「ワンチャン間に合う」「とりま会おうね」みたいな新語もありますし、オノマトペ副詞の新語が生み出される可能性は常にあります。
それと副詞とは微妙に違うかもしれませんが「スコア記録してみた」「カブリバ引退か」みたいな導入部の叙述誘導成分(私はこれをアジェンダ名詞と呼んでいます)のはたらきも助詞抜きという意味では扱いが似てくると思いますので現在分解能向上のために研究している分野でもあります。

カタカナ未知語が一番存在感を発揮するのは何ぞな導入的カタカナ語(例:インクルーシブな社会)であるとかそれこそ固有名詞の宝庫・キャラ名や技名(例:インシネーターを撃つ)などがあるかと思いますが、
ペンタクラスタキーボードではでにをは別口入力が効果的にチャンク切り出しを際立たせてくれているので流石に助詞抜き接続のような要警戒なものでなければもし助詞間に挟まれた未知語が出現したとしてもそれを一律にカタカナ語に解釈・変換してしまえば無茶な誤変換を繰り出すよりも穏当に"放置"できるのではないかと踏んでいます。
ただしこれは乱暴な見立てとなる危うさも秘めておりますが(汗)。未知語の二大巨頭となるもう一方の一角、漢語複合語の存在はどうなってしまうのでしょうか?
これについてはまだ全貌はつかめてはいませんが音素・音韻的な特徴を見極めたうえでこれを援用していこうではないか、との目算を立てています。
具体的に言うと2拍漢語の音読みの2音節目はイウキクチツンのいずれかで終わる、のような法則であったりミュやファのような音やー(長音)つづりの音はカタカナ語である可能性が高い、
あるいはフォスフォフィライトを府ぉ周布ぉFILA意図みたいにモーラを変な切り方をする(一単語チャンクは掴めているのに異字種が混在することも含めて)ことは不自然に感じる
…などの字面からの情報でまずカタカナ語と漢語複合語のスイッチは未知語処理前段段階で区別がつけられそうなのでどちらかに決まり次第各個のチャンクをローカル処理していけば良いはずです。(うまくいけば)
ここではデフォルト解釈をカタカナにしてありますがここで大和言葉の語感を活かしてひらがな表記にしたいのであればここからの追操作で字種切り替え[かな]キーを押して追補的に目的の表記にたどり着く…このような形を思い描いています。
先程の音韻パターンによる判別が首尾よくいくのなら大方の未知語の受け皿として最後に落ち着くのをカタカナ語としてしまうのはわりと無理筋ではなくユーザーのフラストレーションも少ないように思います。

あらためて思うのは別口入力の隙のない活躍で区切り解釈の困難性はひとつのブレイクスルーを迎えている、という認識であります。
もちろん漢語複合語は最後の難敵でありますが、音韻パターンの援用だけでは少し心許ないもののそれに加えて別口助詞の境界明瞭化により不本意な区切りリスクが大分軽減されており少なくとも異次元からひねくり出したような無理やりな漢字変換というのは原理的に起こりにくくなっているのではないでしょうか。
長々とした未知語ももしかしたら局所的検出の見落としで一部漢字変換でき得るものの語片が埋没してしまっているケースもあるかとは思いますが、それならそれで別口入力ハ万で接辞部分をFixするなり粒度操作で「近視眼的食い気味粒度」に捕捉をリトライすることもできますし、なんなら[の][の]代表変換あるいはトランス音訓変換を使って漢カナ異字種混淆複合語をこちらからビルドすることもできます。
くわえて「バイきんぐ」みたいにカナかなハイブリッドな語も[かな][カナ]キー連続押しで末端微修正をあてる手もあります。
また、まだコンセプト手探り中ではありますが「アレンジ・リテラル・ハンド」でチャンクを一文字単位で中途注目しながらの文字列編集も用意してあるのでオールカタカナでもない~完全漢字複合語でもない曖昧な領域の未知語に対してはこうして見るとわりと豊富に操作手段がお膳立てしてあるかと思います。
考えてみれば編集注目ポインタが一文字単位のキャレットの移動だけにとどまらす、ペンタクラスタキーボードではでにをは助詞を「飛び石移動」してのチャンク単位での移動注目動作がキャレット操作と同等かそれ以上に手近なキー操作(盤面下方部≪、≫)で取り回しできているのでひとかたまりでの字種変換、粒度変換、末端変換、中途部変換がシステマティックに全機現していることは強調しておきたいかと思います。
これらの動作は接辞にしても近視眼的粒度にしてもこちらからワンクッション介入してから出す文字操作ですので、逆を言えばこちらから積極的に漢字化していかないのであれば無理には漢字変換せずにデフォルトをカタカナにすることが"期待できる"作りになっており
端的に言えば「種ヴァルグラン」や「あの手ー書ん」みたいな変換は出さないようにしよう、ということであります。


この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« 数学は占いよりも面白い | トップ | 新語・造語・未知語の入力上... »
最新の画像もっと見る

ジャンル横断的な問題」カテゴリの最新記事