P突堤2

「でにをは」別口入力・三属性の変換による日本語入力 - ペンタクラスタキーボードのコンセプト解説

初めて訪問された方へ

P突堤2へようこそ!
キーボードの配列・機能の説明はこちらです。
お知らせや補足事項なども表示してあります。

混ぜ書き不快派と漢字をひらく派は対立構造ではない

2020-02-09 | 変換三属性+通常変換のシステム考察

「大学卒業したら一緒に相撲」みたいに文を締めようと思っているところにいきなり名詞の「相撲」が飛び込んでくると面喰った気分になってしまいます。
この斜め上の誤変換は文の収束部(おそらく用言)で体言がきてしまうと急に特定性・話題を帯びたものが展開を急転させて浮いてしまうところに違和感の根があるようです。
また「設定すんだよ!」⇔「設定済んだよ♪」、「猫を飼いたい」⇔「猫を解体」のように同じ収束部でありながらサ変動詞/助動詞たい-の文末派生ニュアンスをつけたものと素直な一般動詞(漢語含む)との対立から誤変換が生まれるものもあります。
ペンタクラスタキーボードの三属性変換ではこういったサ変活用由来・モダリティ・文末派生のニュアンスが入っている解析候補を優先的に上位提示し先述のように話題が特定的になりやすい名詞やときにはモダリティのつかない生の一般動詞などの候補解釈を個別の三属性キーに任せて、通常変換でのアピールを抑制しています。
通常変換にはあと副詞をいち早く察知してそれを軸に優先的に候補解釈を生成して解析を進めていこう…との狙いもあるのですがそれについてはまたの機会で考察していきたいので今回は通常変換における表記の微妙な機微についてお話していこうかと思います。

通常変換の大事な守備範囲の一つに「頂く」「下さい」「出来る」などの補助動詞を「いただく」「ください」「できる」にデフォルト解釈する指向性をもつのもおさえておかなければなりません。
アスペクト表現の「ておく」「てきた」なども同様です。
さらには「とき」「ところ」「もの」「こと」「ため」などの形式名詞もひらがな表記が原則です。
文脈によって実質名詞としてはたらくときは時・所・物など漢字表記にしなくてはならないときもあるのですがコンピュータにそこまで判断させるというのは酷なのでせいぜいユーザーが漢字を好んだ時の用例を地道に集めて学習していくくらいしかないでしょう。
要するに通常変換では「漢字をひらく」規範意識を明確に持っておりそこから逸脱するあえての漢字表記を好む場合には三属性変換がその受け皿になって個別の漢字表記を引き受けることになります。
もちろん通常変換ででも出ないと困りますから、出るとすれば漢字をとじる表記は変換候補順位の次点以降に提示される旨は心得ていただきたいと思います。
漢字をひらく事はマナーというほどではありませんが読者へ読みやすい文章を届けるための書き手の気遣いだともいえます。

表記の問題のデリケートな使い分け、とりわけ個人差・場面差の振れ幅が大きいものとして漢字の混ぜ書きの問題があります。
俗に公官庁用語、メディア表記基準、PTA規範と呼んでいいものかもしれません。
ここでざっと収集した例を列挙しますと、

すい星 こん身 急先ぽう 晩さん会 強じん 惨たん 殺りく 進ちょく かん口令  怒とう 終えん
完ぺき えん罪 岩くつ王 ひっ迫 島しょ まん延 わい曲 投てき かい離 信ぴょう性 閉そく感
冒とく しん酌 ねん挫 けん責 どう喝 親ぼく 秘けつ 改しゅん 漏えい はっ水 流ちょう
編さん めい福 改ざん ねつ造 破たん 急きょ 謙そん 研さん ほう助 招へい べっ視 かっ歩
敬けん かく乱 あい路 横いつ 洗たく 干ばつ くん製 形がい化 警ら こう配 湿しん 焼い弾
ふ頭 だ捕 ち密 花き き電 う回 危ぐ 一る 炭そ菌 語い し意的 ら致 し烈 安ど き然

…などが挙げられます。
なんだ、書ける字なのにわざわざかなに直すのはどうなのか、「大学生ら致される」は誰に致されてしまったのか、など疑問はさまざまあるでしょうが
そこにある理由・背景といたしましては

・常用漢字にないならしょうがないよね
・ポリティカル・コレクトネスの観点から
・代用漢字にするくらいならいっそ素朴にいきたい
・教育の場において児童の学習進度に応じて
・日本語のグローバル化を念頭に置いて

などさまざまなケースがあるようです。
ペンタクラスタキーボードの構えとしましては柔軟に対応すべくインターフェイスを練っておるところであります。
なお、ここではこうした混ぜ書きに批判的な声もあるかとは思いますが規範の是非に白黒つけるというのではなく、アーキテクチャーの観点、
すなわち通常変換というものがあってそこからの特殊化・逸脱は三属性変換が受け皿になって効率的なフィルター導線を配置して目的の表記に自然な形でたどり着ける、いわばアフォーダンスに則した料理さばきをしたいと思っているのでそこにはあえて触れないようにしてシステムを組み立てていきたいのです。
それはなにかというとそのためには着手優先順位を決定しなければならないということでまずは「通常変換では混ぜ書きの表記の方を優先的に選好する」ということにエイヤッと決めてしまうことであります。
これは私の混ぜ書き観に適っているからというものではなくて、絞り込みのフィルターが合理的であるからというアーキテクチャー自身の要請によるものです。
混ぜ書きはその多くが人間都合によるものであってコンピューターに理解させて取り仕切るには不向きの懸案であり、法則が読めないところがカオスでもあるので仕方なしに一番上のレイヤーでのデフォルト解釈をまずは一律混ぜ書き容認に捉えていくしかないのであります。
それからオール漢字(多少難しくとも)のほうを好むのであればユーザーの変換候補切り替えの意図を漸次学習していき以後は出さないようにオペレーションしていけばよいのです。
大事なのは漠然と学習、バラつきのある学習をするのではなくて確実に反映する学習をすることであって特に通常変換→三属性変換に遷移していったということはユーザーに明確に忌避意識がはたらいていたということでありますからこの「忌避選好アクティビティ」という重要なサインをもれなく回収する、ということであります。
そしてできれば前後の用例・コロケーションつまり周辺語句もセットで学習し以降で同じフレーズが出た時に同じ轍を踏まないよう立体的に学習そして用例登録を厚くしていくというのが欠かせません。

また、学習の積み重ねがある程度進んでいった段階で、前述のPTA規範の文書を書かなければならなくなったときが来たとして、そのときにはまた混ぜ書きをひらいていちいち学習の再修正をしなくてはならないなどということ
…こうした事態を避けるために混ぜ書きに関しては設定メニューから「それまでの混ぜ書き変換の学習結果をリセットする」機能があることが望ましいです。
通常変換にはモダリティ・文末派生モノの優先提示であるとか補助動詞・形式名詞の漢字をひらくといったもろもろのバイアスが掛かっている複雑なものであることは承知しておりますが、それらのすべてを設定でリセットできるということはもちろんできませんし周辺用例などコロケーションを併せて記憶しているとすれば処理負荷にどんな副作用がくるかもわからないのでなおさら非現実的であります。
なのでせめて的を絞って混ぜ書きに関するものだけを限定的にリセットできるようにすることは構想段階から意識して織り込んでおく、の条件付きならなんとか実現できないものでしょうか。いやいや学習プロセスの中身はよく分かりませんが無理を承知で言いたいところであります。

以上で今回は通常変換の抱える漢字⇔かな 周辺の表記の勘所について考察していきましたがやはり混ぜ書きの問題が生半可では扱いにくいものであったので、これを思い入れのままに煎じ詰めるのはやめてアーキテクチャーの制約を軸にしてなるべくしてなった、落ち着くところに落ち着いたふうの一応の解決策が示せたのは自分にとっても血肉になった手ごたえを感じました。
さまざまな指向を持つユーザーの「住み分け」ならぬ「同居」をひとつのインターフェースの元で成立させていくことは非常に難しい事ではありましたがさらなる探究をして最適解を追い求めていきたいと思います。

 


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする