P突堤2

「でにをは」別口入力・三属性の変換による日本語入力 - ペンタクラスタキーボードのコンセプト解説

初めて訪問された方へ

P突堤2へようこそ♪
キーボード解説文を大幅増量してリニューアルしました!
こちらのリンクからコンセプトをご覧ください。

数学は占いよりも面白い

2020-02-23 | 関連書籍・DVDのレビュー

 

先日最近気になっていたGoogleの工藤拓氏を検索していたら面白そうな書籍を見つけました。
その名も「数学セミナー2020年3月号 特集◎言語の数理」。
言語と数学…なかなかケッタイなテーマではあるものの普段はこういった硬派で本格的なテーマを読みこなせるかなかなかハードルが高いもので、
数学雑誌とはいえども異色の特集ですから科学読み物的にカジュアルに読めそうかな?の期待を込めて買ってしまいました。

言語に潜む数理構造や数学を用いて言語を研究する事例を紹介し、数学と言語の交わる領域の魅力をお伝えします…との触れ込み内容で、以下に特集テーマと執筆者を列記しますと

言語の数理研究への誘い◎田中久美子
自然言語処理と構造学習/日本語単語分割を一例に◎工藤 拓
文構造に内在する普遍/文の木構造に現れる偏り◎能地 宏
言語の意味空間◎田 然
論理と文法◎峯島宏次
基本語順の歴史的変化の数理モデル◎村脇有吾

のようになっております。

自然言語処理関係で以前知って以来動向が気になっていた「言語の意味空間」「概念ベクトル」「意味の『合成』」に関する田然氏の記事と、もちろん工藤拓氏の記事が目当てで購入いたしました。
どの記事も虚空蔵なマジックのようで目がくらむようでしたが「難解な論文っぽいくだりはそーゆーモノだと割りきって読むんだよ!(施川ユウキ「バーナード嬢曰く。」 )」の精神でなんとか読み終えました。
工藤拓氏の単語分割の記事ではかな漢字変換ではおなじみのラティスのグラフも載っていて少し安心しましたが構造学習のところは私の理解力では見事に完敗してしまいました。
けれども冒頭の田中久美子氏の記事が後から読み返すと道しるべになるようなガイダンス的な造りで親切に作ってあったのでなんとか反芻するところまで漕ぎつくことができました。
このガイダンスのおかげで意味ベクトルとは別のアプローチ、それも単語としての意味ではなく、同じ意味でも文の意味を扱う(統語的に)◆論理と文法(峯島宏次氏)のところのアプローチがそもそもあるのだということが位置づけられてあってまた新たな関心領域を見つけることができたのが一番の収穫でした。
ここの論説中には「範疇文法」という文法理論が解説してあって詳しい説明は割愛しますが現在思案中でもあるペンタクラスタキーボードIMEの文解析をどうしていこうかのヒントを最新の言語資源の整備展開とも相まって温度を感じ取ることができたので私としても今後の取り組みの進展を目指していきたいと気持ちを新たにしたところであります。

どっしりと腰を据えてひとつのテーマを深掘りしていくのもいいですが、私にはこういったアラカルト的に概観できたほうが性に合っているみたいです。またこのような特集が組まれている雑誌読み物があったらチェックしていこうかと思います。
昔、森毅さんの本で「すうがく博物誌」というのを読んだ覚えがありますがあの頃の自分と比べて読書体験は少しは豊かになったのかな?数学はてんでダメですけれどこうして興味の蛍火だけはうっすらと残っているんですよね。

 


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

混ぜ書き不快派と漢字をひらく派は対立構造ではない

2020-02-09 | 変換三属性+通常変換のシステム考察

「大学卒業したら一緒に相撲」みたいに文を締めようと思っているところにいきなり名詞の「相撲」が飛び込んでくると面喰った気分になってしまいます。
この斜め上の誤変換は文の収束部(おそらく用言)で体言がきてしまうと急に特定性・話題を帯びたものが展開を急転させて浮いてしまうところに違和感の根があるようです。
また「設定すんだよ!」⇔「設定済んだよ♪」、「猫を飼いたい」⇔「猫を解体」のように同じ収束部でありながらサ変動詞/助動詞たい-の文末派生ニュアンスをつけたものと素直な一般動詞(漢語含む)との対立から誤変換が生まれるものもあります。
ペンタクラスタキーボードの三属性変換ではこういったサ変活用由来・モダリティ・文末派生のニュアンスが入っている解析候補を優先的に上位提示し先述のように話題が特定的になりやすい名詞やときにはモダリティのつかない生の一般動詞などの候補解釈を個別の三属性キーに任せて、通常変換でのアピールを抑制しています。
通常変換にはあと副詞をいち早く察知してそれを軸に優先的に候補解釈を生成して解析を進めていこう…との狙いもあるのですがそれについてはまたの機会で考察していきたいので今回は通常変換における表記の微妙な機微についてお話していこうかと思います。

通常変換の大事な守備範囲の一つに「頂く」「下さい」「出来る」などの補助動詞を「いただく」「ください」「できる」にデフォルト解釈する指向性をもつのもおさえておかなければなりません。
アスペクト表現の「ておく」「てきた」なども同様です。
さらには「とき」「ところ」「もの」「こと」「ため」などの形式名詞もひらがな表記が原則です。
文脈によって実質名詞としてはたらくときは時・所・物など漢字表記にしなくてはならないときもあるのですがコンピュータにそこまで判断させるというのは酷なのでせいぜいユーザーが漢字を好んだ時の用例を地道に集めて学習していくくらいしかないでしょう。
要するに通常変換では「漢字をひらく」規範意識を明確に持っておりそこから逸脱するあえての漢字表記を好む場合には三属性変換がその受け皿になって個別の漢字表記を引き受けることになります。
もちろん通常変換ででも出ないと困りますから、出るとすれば漢字をとじる表記は変換候補順位の次点以降に提示される旨は心得ていただきたいと思います。
漢字をひらく事はマナーというほどではありませんが読者へ読みやすい文章を届けるための書き手の気遣いだともいえます。

表記の問題のデリケートな使い分け、とりわけ個人差・場面差の振れ幅が大きいものとして漢字の混ぜ書きの問題があります。
俗に公官庁用語、メディア表記基準、PTA規範と呼んでいいものかもしれません。
ここでざっと収集した例を列挙しますと、

すい星 こん身 急先ぽう 晩さん会 強じん 惨たん 殺りく 進ちょく かん口令  怒とう 終えん
完ぺき えん罪 岩くつ王 ひっ迫 島しょ まん延 わい曲 投てき かい離 信ぴょう性 閉そく感
冒とく しん酌 ねん挫 けん責 どう喝 親ぼく 秘けつ 改しゅん 漏えい はっ水 流ちょう
編さん めい福 改ざん ねつ造 破たん 急きょ 謙そん 研さん ほう助 招へい べっ視 かっ歩
敬けん かく乱 あい路 横いつ 洗たく 干ばつ くん製 形がい化 警ら こう配 湿しん 焼い弾
ふ頭 だ捕 ち密 花き き電 う回 危ぐ 一る 炭そ菌 語い し意的 ら致 し烈 安ど き然

…などが挙げられます。
なんだ、書ける字なのにわざわざかなに直すのはどうなのか、「大学生ら致される」は誰に致されてしまったのか、など疑問はさまざまあるでしょうが
そこにある理由・背景といたしましては

・常用漢字にないならしょうがないよね
・ポリティカル・コレクトネスの観点から
・代用漢字にするくらいならいっそ素朴にいきたい
・教育の場において児童の学習進度に応じて
・日本語のグローバル化を念頭に置いて

などさまざまなケースがあるようです。
ペンタクラスタキーボードの構えとしましては柔軟に対応すべくインターフェイスを練っておるところであります。
なお、ここではこうした混ぜ書きに批判的な声もあるかとは思いますが規範の是非に白黒つけるというのではなく、アーキテクチャーの観点、
すなわち通常変換というものがあってそこからの特殊化・逸脱は三属性変換が受け皿になって効率的なフィルター導線を配置して目的の表記に自然な形でたどり着ける、いわばアフォーダンスに則した料理さばきをしたいと思っているのでそこにはあえて触れないようにしてシステムを組み立てていきたいのです。
それはなにかというとそのためには着手優先順位を決定しなければならないということでまずは「通常変換では混ぜ書きの表記の方を優先的に選好する」ということにエイヤッと決めてしまうことであります。
これは私の混ぜ書き観に適っているからというものではなくて、絞り込みのフィルターが合理的であるからというアーキテクチャー自身の要請によるものです。
混ぜ書きはその多くが人間都合によるものであってコンピューターに理解させて取り仕切るには不向きの懸案であり、法則が読めないところがカオスでもあるので仕方なしに一番上のレイヤーでのデフォルト解釈をまずは一律混ぜ書き容認に捉えていくしかないのであります。
それからオール漢字(多少難しくとも)のほうを好むのであればユーザーの変換候補切り替えの意図を漸次学習していき以後は出さないようにオペレーションしていけばよいのです。
大事なのは漠然と学習、バラつきのある学習をするのではなくて確実に反映する学習をすることであって特に通常変換→三属性変換に遷移していったということはユーザーに明確に忌避意識がはたらいていたということでありますからこの「忌避選好アクティビティ」という重要なサインをもれなく回収する、ということであります。
そしてできれば前後の用例・コロケーションつまり周辺語句もセットで学習し以降で同じフレーズが出た時に同じ轍を踏まないよう立体的に学習そして用例登録を厚くしていくというのが欠かせません。

また、学習の積み重ねがある程度進んでいった段階で、前述のPTA規範の文書を書かなければならなくなったときが来たとして、そのときにはまた混ぜ書きをひらいていちいち学習の再修正をしなくてはならないなどということ
…こうした事態を避けるために混ぜ書きに関しては設定メニューから「それまでの混ぜ書き変換の学習結果をリセットする」機能があることが望ましいです。
通常変換にはモダリティ・文末派生モノの優先提示であるとか補助動詞・形式名詞の漢字をひらくといったもろもろのバイアスが掛かっている複雑なものであることは承知しておりますが、それらのすべてを設定でリセットできるということはもちろんできませんし周辺用例などコロケーションを併せて記憶しているとすれば処理負荷にどんな副作用がくるかもわからないのでなおさら非現実的であります。
なのでせめて的を絞って混ぜ書きに関するものだけを限定的にリセットできるようにすることは構想段階から意識して織り込んでおく、の条件付きならなんとか実現できないものでしょうか。いやいや学習プロセスの中身はよく分かりませんが無理を承知で言いたいところであります。

以上で今回は通常変換の抱える漢字⇔かな 周辺の表記の勘所について考察していきましたがやはり混ぜ書きの問題が生半可では扱いにくいものであったので、これを思い入れのままに煎じ詰めるのはやめてアーキテクチャーの制約を軸にしてなるべくしてなった、落ち着くところに落ち着いたふうの一応の解決策が示せたのは自分にとっても血肉になった手ごたえを感じました。
さまざまな指向を持つユーザーの「住み分け」ならぬ「同居」をひとつのインターフェースの元で成立させていくことは非常に難しい事ではありましたがさらなる探究をして最適解を追い求めていきたいと思います。

 


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする