P突堤2

「でにをは」別口入力・三属性の変換による日本語入力 - ペンタクラスタキーボードのコンセプト解説

初めて訪問された方へ

P突堤2へようこそ♪
キーボード解説文を大幅増量してリニューアルしました!
こちらのリンクからコンセプトをご覧ください。

来阪らいはん 帰函きかん 訪沖ほうおき 渡仏とふつ などの往来表現と変換

2018-09-09 | [Ø]活用と単漢字変換の打開策
よく日常で目にするものですが、
来熊らいゆう・来神らいしん・帰讃きさん・来広らいこう などといった言葉はその地元の人でないと割と読めない字面かも知れません。
(それぞれ熊本・神戸・香川・広島での言い方)

二字熟語による往来表現の一覧 - Wikipedia
というトピックがあります。
各都道府県や国・地域などへの移動・駐在に関する漢字二字の表現は実にさまざまで文字メディアや新聞記事などでは短縮して表現できるためこの用法が多用されています。
しかし使用機会が多いにもかかわらずこの手の言葉が国語辞書にくまなく収録されていることはまずありませんし、ましてやIMEでストレスなく一発変換できるなどという環境もいまだ整ってはいないのが実情です。
今記事ではここらあたりのトピックについてペンタクラスタキーボードのシステムで何か打開策になるような入力の便宜を模索していきたいと思います。

…その前に先述の例のほかのさまざまなケースや有用なリンクなどを解説・紹介していこうかと思うのですが、
大体の地名においては青森は来青らいせい、横浜・浜松は来浜らいひん、名古屋は来名らいめい、鳥取は来鳥らいちょうといった具合に音読みの方で読ませるのが一般的なようです。
栃木県の「栃」の字については励や蛎などの漢字からの類推して「レイ」の読みを編み出す例:帰栃(きれい)もありますが正式な音読みではないものの慣用的にそう読まれているものもあります。
しかし中には来沖らいおき(沖縄)や来崎らいさき(長崎)のように訓読みを使っている例もあるので音読みが絶対だ、というわけでもなさそうです。

あと特殊な例としては東京・京都に限って上京・上洛/入洛の呼び方をするのも健在です。これらは首都東京や京の都の御威光あってのことですね。
調べていくうちレアケースだったのは来寧らいねいというのがあり奈良の古称・雅称「寧楽」(ねいらく)に由来しているものだということを知りました。
このようにさまざまな例がありましたが地方紙・地方メディア・SNS上などで地元の人は当たり前に使っているのを目にしますがこうして異郷の存在からの視点で見ると結構新鮮だったりしますね。

この他にもいろいろな例がありましたが特に北海道には多くの地方都市がありそれぞれ地元の人でないとわからないような独特の字面があるのでここでは詳しく解説はできませんがWebをめぐっているうちに見つけた詳しいサイトがあったのでそちらを↓に紹介したいと思います。
「来道(らいどう)」という呼び方色々 – 北海道ファンマガジン [ファンマガ]


さて、ペンタクラスタキーボードでこれら往来表現二字熟語の変換をサポートできないかという点でありますが、最近の記事でとりあげたトランス音訓変換(パズルのピースをはめる変換)をうまく使って何か有効な入力プロセスはできないだろうか、というのを思案しています。
しかしただトランス音訓変換の手続きをそのままそっくり援用できるかと言えばこれはかなり無理があると言えます。
トランス音訓変換の構成文字リードを導くのに代表変換が使われますが、「ほっかいどう」のリードでは「道」よりも「北」を出したいところですし(訓の「きた」で出そうとすると同音和語の競合が発生するので「ほく」「ほっ」の音を重く見た方が都合がよいという判断)
「おおさか」のリードでは「阪」よりも「大」を出したい(音の「だい」で「大」を出そうとすると代や台などで競合してしまうので訓の「大おお」で出せる手段をもっていることは便宜上必要性がある)といったような独特の代表性選出基準があるからです。
確かにこの地名一字をもって定型素的に連結する生産性の高さは大事なのですが、代表変換の文字はその他にも稀少性・断片活躍性・同音埋没性の各特徴を勘案して最も妥当な"代表字"を選び出しているプロセスですので単に生産性のあるなしをましてや往来熟語だけの代表性推しで決めるわけにもいかないものなのです。
あくまでもローカル対応の一用途での話に過ぎないのでトランス音訓変換(パズルのピースをはめる変換)全体のルールのバランスを崩すことはできません。

なのでここはワンクッション置いて三属性変換の属性ハ(接頭語接尾語がらみ)の変換キーで文字列を把握したあとで続けて新設の②キー(登録ワンタッチキー)を押してトランス音訓変換のフェイズへと複合動作させることで往来熟語に特化した手続きを開始するというのはどうでしょうか。
往来熟語の「来」「帰」「訪」「渡」「在」「駐」「離」などの要素は動詞+場所(目的地)という漢語の語構成を準用した熟語であると同時に生産力要素として接頭辞としてもはたらいているので属性ハで変換しようというのはごく自然な成り行きです。
ただそれだけだと属性ハでの接頭辞というのは接尾辞に比べてやや形勢不利で変換に不安要素もありますし、「らいせい」などといった具合のものをたとえ属性ハとのパラメータが与えられていたとしても変換上位にもってこれるかどうかは地名にもよりますがまず不確実な状況といって良いでしょう。
そこをうまく連携動作させてトランス音訓変換のあて込みをさせるようにさせれば音読みの「せい」のように難儀なヒントで地名をひねり出す苦労もなく、あて込みリードで「あおもり」と入れてしまえば紛れることなく「青」がもってこれます。
これは、前段に三属性変換:属性ハ を噛ませているおかげでその複合動作の登録ワンタッチキーモードは闇雲に代表変換をするのではなくこの場合は往来表現の地名一字をあて込みたいんだな…という文脈の含みをもたせることができるので迷うことなく代表字を出すことができ、しかも未知語に強いという効果も期待できます。
ただしシステム派生ですので設計上も操作上もひと手間掛かってしまうのが大変なところですが、それをおさえて余りあるメリットももたらしてくれるものだと信じています。

イメージを喚起させるために具体的な操作手続きを説明しますと、

<来阪らいはんを複合動作で入力するときの流れ>
1.「らいはん」という文字列を入力してまずこれを三属性変換のものとして変換動作を試みる
2.「らいはん」直後に[属性ハ]キーを押す
3.その後[属性ハ]の後続打鍵はせずここでトランス音訓変換へ移行する
4.新設の②キー(登録ワンタッチキー)を押しここまでの文字列に着目・捕捉動作をする(それと同時に単語登録プロセス開始)
5.これまでの文脈で接頭語+地名の代表字1字だというのを酌んでいるので地名部分の代表変換を促す
6.リード「おおさか」で「阪」をあてはめていく(地名代表字変換)
7.「属性ハ入力」と「らい=来」、「阪」と「はん」がこのとき同時に対応して「らいはん」の詳細が勘案される(複合動作入力/音-訓トランスマッチ)
8.「らいはん」のすべての未変換要素は確定したためここでトランス音訓変換は終了、単語登録も行う

生産力要素の留意をしつつ地名からの代表字のひねりだしという手順は三属性変換とトランス音訓変換の複合動作という解決方法でうまく合致させることができました。
この手順でシステムがうまく回れば、未知語を含む各種往来表現にも広く対応することができます。
注意点としましては各地名・都市名の代表字をその地名ごとに用意しなくてはならないということ(音訓トランス紐づけも含めて整備する)が1つと
それをおこなうのは三属性変換とトランス音訓変換の複合動作としての場面に限定してつくられた往来表現版の代表変換であって、通常の操作文脈での代表変換とは別物であるということであります。
来釧(らいせん) という語自体は未知語であったとしても、釧路の代表字は「釧」という予備知識はもっていないとはじまらないということですね。

あとは外国からの往来表現で
来星らいせい:星嘉坡(シンガポール)
来独らいどく:独逸(ドイツ)
などの例もありますがこれらも同様にリード:シンガポール あるいはリード:ドイツ
をそれぞれ「らいせい」「らいどく」にあて込んでいけばよいかと思います。
もともと国の漢字表記はその国そのものの発音とは違った呼び方になるのですから、地名の代表字の便宜といくらか似通った運用になるものだと言えるでしょう。


…以上で大体の説明は終わりです。
このように複合動作によって往来表現を上手くさばく手立ては見えてきましたが、地名ではなく純粋に未知な複合語一般をひねり出したいときにもこの複合動作の使い道はあるでしょうから作用要件のさらなる検討が必要であるかと思います。
複合動作ということなのでカテゴリ「ジャンル横断的な問題」にしようかとも思いましたが、トランス音訓変換の発展形とも呼べるものですから「[Ø]活用と単漢字変換の打開策」のカテゴリで取り組んでいきたいと思いそちらのカテゴリにすることといたします。
今後もこの系統のトピックは「[Ø]活用と単漢字変換の打開策」で議論・考察を進めていきたいと思いますのでよろしくお願いします。

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

代表変換のカタカナ語への応用

2018-08-21 | [Ø]活用と単漢字変換の打開策
いろいろな混成語・略語・複合語をあたっているうちにアルファベットとの混成語で個性的な事例を見つけました。
「360度写真コンテンツ提供VRサービス Q撮(きゅうと)」というものがあります。なかなか新鮮な読み方です。
これは 読み:Qと、「撮」部分のリード:とる
とやっても「とる」には同音和語が多すぎて(取る/摂る/採る/捕る/執る/獲るなど)なかなか思うような代表変換が出てきません。
しょうがないので「さつえい」で「撮」を出そうかと思いきや、「影」の方が代表変換候補になっているので思うようにアクセスしようにも思惑どうりにいかなそうです。
これは「さつ」より「えい」の方が同音語のライバルが多いために埋没を引き出そうとする選好がはたらくためです。
このように音でも訓でもアクセス阻害要因がはたらいて思ったように代表変換を導けない場合に奥の手として「リードを英語で変換してしまえばどうか」というのが新しいアイデアであります。
撮影する、には英語でShootという単語がありますのでこれを使います。ただ、ペンタクラスタキーボードの英語入力はいささか不便ですのでShootではなくカタカナ語の「シュート」を使います。
「シュート」には文字通りサッカーやバスケのシュート動作を意味するものですが代表変換は連想紐づけや複数字の語からあえて捨除して代表字をあて込むなどというように必ずしもリードの言葉とイコールでなくても構わないものであるので英語(カタカナ語)を組み入れても発展的拡張としてなんら違和感のないものであると言えます。
まあ「シュート」に「撃」や「射」などをあてないこともないのですがこれらの表現は日本語としての比喩に過ぎませんし感じ方の個人差もありますから表示の裏付けもしっかりしているという面で英語の簡単な訳語というのはむしろ案外はまっているものだと思います。
よってQ撮(きゅうと)を入力するには以下の手続きを踏んでいくものとします。

1.「Q撮(Qと)」という語をタイプしたがちゃんと変換できる自信がない
2.新設の②キー(登録ワンタッチキー)を押してここまでの文字列に着目・捕捉動作をする(それと同時に単語登録プロセス開始)
3.二度手間になるが「Q」の部分をもう一度「Q」でタイプする
4.シュート[の][の]で「撮」を出し「と」の部分に当てはめていく(カタカナ語トランス変換)
5.「と」まで使い切ったので読みの文字列はこれ以上ない、終端部分と認識して同時に
  読み:(Qと)、単語:(Q撮)のデータが紐づけられて単語登録が終了

…以上のような手続きですがアルファベットが絡むものの基本的な仕組みはトランス音訓変換と同列にあるものですので呑み込みやすいのではないでしょうか。
「とる」の「る」さえいらない語幹の「と」だけをもって「撮」をあてるのはいささか無理があるのではないか、という声も聞こえてきそうですがこれはなかなか説明するのに骨が折れそうな問題です。
強引に言ってしまえば、代表変換というものは何らかの縮約であり全体に対する部分としてしか存在しないものなので、「と」に値する単独の語として成立する「無頼の徒」の「徒」や「帰国の途についた」の「途」というのは初めから代表変換候補から除外されるものであるというのがあってこのケースの「とる」のように形成途中のものであってなおかつそれが語頭として表出する、という条件はある程度限定性があるので「と」単文字であってもあて込みの受け皿となれるのだということです。
とはいうものの「行く(いく)」の代表変換物として「い」にあて込むという調子では少々やり過ぎですし英語からの翻案的なトランスあて込みというカラミに限って(和語の同音語が多いため)このような単文字語幹でのあて込みをある程度吟味していくことが求められると思います。
ただし単文字ですので「エンプティ(空く)」を「あ」にあて込むぐらいなら許容できそうですが仮に「黒いけれどよく消える消しゴム『墨擦』(スミス)」みたいなものへも対応させようというのならためらいも少しはあります。
ちなみに 読み:すみす / リード:インク[の][の]=墨、ラブrub[の][の]=擦 の和英トランス変換でこれを実現させるといった具合です。
とかく扱いの繊細な単文字要素の変換にこのような判断基準のわからない語彙情報を組み込もうというのは一種の賭けでもあり危うい議論でもあるというのが正直なところです。
ただ注意深く傾向を探ってみると英語基本語にはhaveやgetのように前置詞を伴った熟語のバリエーションが多くあって歯切れ良いカタカナ語一語が対応するうまい言葉がない場合もありますし同じ「下」でもlow・under・below・downなどのように用途の異なる別語が割拠してい場合もあり英語での代表判断が困難なものが足かせになったりしています。
さらに「読む」をリードに、「詠む」をコンポーズにあてようなどと思っていてもリードleadは「導く」のニュアンスの方が大きそうですしコンポーズcomposeは「作曲」がまず浮かんできます。代表というからには第一義的なものを選びたいのでサブ用法のものをこじつけてまで本家取りさせたくはありません。
もう一つ言えば「座る」の「座」は「すわる」の基本代表として変換できるとは思いますが、「度胸が据わる」の「据」はhave nerves of steelとなるのでひと口に言えませんし「腹が据わる」のほうはhave gutsとなるので同じ据わるでも用法のニュアンスによって英語で違う言い方になるという問題もあるので単純直訳ですむというシンプルな話にはいかないようです。
このようにカタカナ語をまるで部品のように都合よく使えるというのは幻想であってそうそう思った通り活躍できるというものでもありません。
さらに「経る」は「けいけん」の代表変換で出せますしその同音語の「減る」はそのまま「へる」の第一候補として出せばよいのでそもそも英単語マターが登場する機会というのも限られてくる見込みなのではないでしょうか。
たとえ、「職業転々経」(しょくぎょうてんてんへ)みたいな造語であっても案外日本語のままでトランス変換が完結する(経験:の代表変換で出せばよい)場合というのも多そうですし「機会減」(きかいげん)みたいな場合はこちらは「--減」のように捉えて接頭語・接尾語の変換の助けで何とかなるケースもあるかもしれません。
いずれにせよなんでもかんでもカタカナ語対応がいきわたっているというようなイメージではなく同音語の音でも訓でもアクセス阻害要因があって困る場合であるとか同音訓はあっても日本語の枠内で何とかなる場合を除いてどうしても英単語の助けが必要であるなどの確固たる理由があったもだけのをカタカナ語変換として整備し、その位置づけはあくまで補完的なものにとどめるという使い方が現実的というものでしょう。
なのでうたい文句としては派手なものですが読者の方々には過度の期待をさせてしまったとしたらこちらとしても少々申し訳ない気持ちであります。

これらの例のように決して上首尾に物事が進むわけではありませんが、同音語の多い「倒れる」=「倒(とう)」を「ダウン」から出したりできる使い方であるとか
「釣果」に対して「狩果(しゅか)」みたいな造語を作りたいときには「ハント」+「結果(の代表変換)」で事足りるのもあったりしますので使いどころによっては重宝するのではないかと思いますのでまだまだ捨てたものではありません。
あとは<解くsolve・説くpreach・溶くDissolve・梳くcomb>などの「とく」同音動詞の使い分けはそれぞれ「ソルブ・プリーチ・ディソルブ・コーム」をあてれば済むというのもうれしいところです。
ただ「解」についてはちょっと補足もあるので説明させたいただくと、
「妥協解」であるとか「囲碁名局細解」みたいな語における「解」は厳密に言えば「解 (solution)」なので「ソリューション」をあてるべきですがこれは名詞化接尾辞「tion」がついていることからもわかるように派生感の強いものであり言語イメージの原初幹のあるものは動詞の「solve」(ソルブ)の方が展開していく基礎としては合っていると思います。
ですので「解」を導くリードは「ソルブ」になります。英語の訳義厳密性にこだわるのではなくあくまで日本人感覚による田舎英語の素朴な語彙感で捌いていきます。
この辺は品詞の違いの誤差みたいなものでありますし漢字の字面の代表性をフォーカスしているのですから四角四面の考え方はなじまないというものです。不思議なことに英語が動詞中心の言語であるということもこのシステムには上手く符合しているものだと言えます。
ちなみに「囲碁名局細解」は以下のような入力プロセスを想定しています。

1.いごめいきょく[Ø]さいかい のようにタイプする(適度なパーツ分けのために[Ø]文字マーカーでセパレートするため)
2.[通常変換]を押す
3.「囲碁名局」が出るまで適宜候補選択する 出たら[Enter]キー押しでこの部分は確定
4.セパレーター以降の「さいかい」が変換対象文字列に切り替わる
5.ここで②キー(登録ワンタッチキー)を押してここまでの文字列に着目・捕捉動作をする(それと同時に単語登録プロセス開始)
6.こまかい[の][の]で「細」を出し「さい」の部分に当てはめていく(音-訓トランスマッチ)
7.そるぶ[の][の]で「解」をだし「かい」の部分に当てはめていく(カタカナ語トランス変換)
8.読みの文字列はこれ以上ない、終端部分と認識して同時に
  読み:(いごめいきょくさいかい)、単語:(囲碁名局細解)のデータが紐づけられて単語登録が終了

あと何か特徴的なものはないか探してみると、
「オク下率」(おくしたりつ)というのを変換するのに「した」の部分を「落下」の代表変換で出せそうですがあまりとっさに出てきなさそうですし、先程の「下」でもlow・under・below・downといろいろあって
「down」については「倒」をあてるのでこれはないとして「low」は「低」ですし代表的には「under(アンダー)」が良さそうな感じがします。
なかなか行き当たりばったりな運用ですが気にせず話を進めてまいりますと「した」のもう一つの双璧である「舌」の方にはワンポイント注意点があるので言及したいと思います。
それは「舌」には「貧乏舌」「バカ舌」のように複合語になると連濁するという性質があることです。「下」は清音のままで濁らないので「オクじた」とはなりませんのでこれは何といって良いか「片務的」な違いであります。
理由はともかく、代表変換「舌」を「タン」で出すにしても「じた」に柔軟に対応してあて込めることが望まれます。いやむしろ代表変換で使われるような複合語はまずもって連濁パーツでありますのでこれは必須条項であるのです。
もちろん連濁には規則性がなくデータの整備が困難であるというのもありますし、「--寿司(ずし)」≒「図示」や「--喧嘩(げんか)≒「原価」の同音例のように連濁をカバーしてしまうがゆえに余計な同音語とのカブりが増えてしまって混乱要因が増す、などの事情もあるでしょう。
ただこの代表変換・トランス音訓変換などに限って言えば変換対文字列は単漢字の切れ切れした配置を主にしているのがまずあります。想定される編集文脈というのが限定されているのです。
さらには闇雲にプレーンな文の中の紛れやすい環境であたえられる変換文ではなく「でにをは別口入力」という枠組みの中で名詞チャンク・動詞チャンクなどがある程度目星のついた中で、しかも代表変換は複合語・略語の構成要素を編集するシーンにおいて使われるというのが変換前提としてあるのです。
なので「何だこのスレは…」を「何蛸のスレは…」と間違えるようなことは決してありません。これだけでもだいぶ違ってきます。
このようにシチュエーションがある程度読める中であるのなら、基本語彙に限っては網羅的に連濁要素の収集という力任せな方法でもある程度「勝機」はあるのではないでしょうか。
カタカナ語の変換から話が逸れてしまいましたが、ましてやカタカナ語トランス変換に使われて、さらに連濁要素も絡むというパーツというのはある意味稀少ですからそれくらいは漏らさず押さえてほしいものです。


…以上でカタカナ語トランス変換というコンセプトで言いたいことは大体述べたところですが再度ポイントを確認いたしますと、
(本に)載る という意味で「appear(アピア―)」を「載」のカタカナ語変換にしようとしてもアピア―には「現れる」(現)というのがまず第一にきますし、
「help(ヘルプ)」を「助」のリードにあてようとしてもhelpには「避ける」という意味合いも持っていてニュアンス込みだと真に適切な代表変換候補を選び出すのも一定の基準というものがないとなかなか話を進められそうにありません。
つまり日本語と英語との橋渡しをする「カタカナ語トランス変換」というものも、単純に1対1で対応するという簡単な話ではないことを認識しなければなりません。これが一点です。
なので適用基準、適用場面は限定的・補完的なものとしてこれを使うということがもう一点です。
あとは先程の連濁のようにシチュエーションの限られた中で使うものなのでで連濁や促音音素の解釈は柔軟にして対応していくべきだというのが三点目です。

せっかく代表変換・トランス音訓変換…とここまでぶちあげてきてもまだ完璧さが足りないというのであればせっかくここまで建てたのだからいっそのこと"増築"してしまえば良い、ということで思いつきで追加したこのアイデア、
微調整という名のバランスによる完成ではなく、新規拡張というベクトルで動的均衡を目指すというのもひとつの解決策のありかたではないか、と自分に言い聞かせつつこの記事を締めたいと思います。


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

新カテゴリ「[Ø]活用と単漢字変換の打開策」

2018-08-17 | [Ø]活用と単漢字変換の打開策
[の][の]代表変換、トランス音訓変換と立て続けに記事をUPしてきましたがこのあたりのトピックは結構ネタが出てきそうでもあり試行錯誤ももっと必要でありそうな見通しですので、独立したカテゴリとして整理していきたいと思います。
それに伴い、「ジャンル横断的な問題」カテゴリの記事をいくつかこちらに移動させることにしました。

さて、最近の記事では単漢字変換に関する新しい機能の提案をしてまいりましたが、
未知の複合語や略語、かな漢字混在の語などで初回でうまく変換できなさそうな語を変換していく上では従来、煩雑なステップを踏んで漢字を取捨編集してようやく目的の語を完成させていくスタイルでした。
一つ一つの構成漢字を何か手近にアクセスできそうな熟語・活用語などで打ち込んでその度に余計な送り仮名や不要部分を削って漢字構成をようやく成立させていくものでありこのもどかしい作業は漢字変換にはつきものと半ばあきらめていたものですが、
"聖域なき改革"が必要ということでとりあえず単漢字を積み上げていって目的の語を作っていってみようというアプローチで解決を図るというのが当カテゴリの一連の提案群であります。
細かいインターフェイスの詰めや対応できそうな語例とそうでない語例の違いなど検討が必要な論点はまだこれから練っていくところですが今後の説明解説のベースとなる大まかな定義を個々にまとめておきたいと思います。
以下、解説をご覧ください。

第一のアイデア:[の][の]代表変換 または 棚卸し変換
<「香薫」(こうくん)という漢字を出したい>
1.かおる[の][の]で変換すると「香る」ではなく送り仮名のない「香」が代表変換されて一文字目がタイプされる
2.くんぷう[の][の]で変換すると「薫風」のうち「薫」の字だけが代表変換されて二文字目がタイプされる
   →「香薫」が完成


第二のアイデア:トランス音訓変換、またはパズルのピースをはめる変換
パターンA
1.「サ高住」(さこうじゅう)という語をタイプしたところだがちゃんと変換できる自信がない
2.新設の②キー(登録ワンタッチキー)を押してここまでの文字列に着目・捕捉動作をする(それと同時に単語登録プロセス開始)
3.捕捉した「さこうじゅう」を読みとしてちょっと二度手間だがそのうち漢字の部分である「高」「住」をあてはめていきたい
4.たかい[の][の]で「高」を出し「こう」の部分に当てはめていく(音-訓トランスマッチ)
5.すむ[の][の]で「住」を出し「じゅう」の部分に当てはめていく(音-訓トランスマッチ)
6.特にあて込みのなかった「さ」の部分はカタカナとみなされ「サ・高・住」の字の配列が決まる(Enterキーで決定)
7.「じゅう」まで使い切ったので読みの文字列はこれ以上ない、終端部分と認識して同時に
  読み:(さこうじゅう)、単語:(サ高住)のデータが紐づけられて単語登録が終了

パターンB
1.「開催チュウ」(かいさいちゅう)という語をタイプしたがちゃんと変換できる自信がない
2.新設の②キー(登録ワンタッチキー)を押してここまでの文字列に着目・捕捉動作をする(それと同時に単語登録プロセス開始)
3.二度手間になるが「かいさい」の部分をもう一度「かいさい」でタイプする
4.[の][の]は使わず[通常変換]キーで「開催」を変換する(適宜変換候補を選択してEnterキーで決定)
5.残りの「ちゅう」を残したままで②(登録ワンタッチキー)を押す(読みあて込みは完了したとのサイン)
6.「ちゅう」は漢字でないことがわかるので「チュウ」に変換(デフォルトはカタカナと解釈)
7.すべての読み文字列が消化され②も押されたので以下のデータが格納され登録される
  読み:(かいさいちゅう)、単語:(開催チュウ)

パターンC
1.「高エネ研」(こうえねけん)という語をタイプしたがちゃんと変換できる自信がない
2.新設の②キー(登録ワンタッチキー)を押してここまでの文字列に着目・捕捉動作をする(それと同時に単語登録プロセス開始)
3.捕捉した「こうえねけん」を読みとしてちょっと二度手間だがそのうち漢字の部分である「高」「研」をあてはめていきたい
4.たかい[の][の]で「高」を出し「こう」の部分に当てはめていく(音-訓トランスマッチ)
5.けんきゅう[の][の]で「研」を出し「けん」の部分に当てはめていく(代表変換)
6.特にあて込みのなかった「えね」の部分はカタカナとみなされ「高・エネ・研」の字の配列が決まる(Enterキーで決定)
7.「けん」まで使い切ったので読みの文字列はこれ以上ない、終端部分と認識して同時に
  読み:(こうえねけん)、単語:(高エネ研)のデータが紐づけられて単語登録が終了


…以上の2点が単漢字変換の新提案アプローチ方法です。
「第一のアイデア:[の][の]代表変換 または 棚卸し変換」のほうは単語登録のプロセスはなく、その場限りの単漢字変換であり対応できる語は限られてきます。
漢字だけからなる複合語・略語には対応できるのですが「サ高住」のようなカナも交じった混成語への対応はできません。
それでもスノッブ漢字へのアクセスは容易になりますしあえて単語登録するのを避けたいユーザーはこちらの機能で単漢字変換をおこなうという選択として意味があります。

「第二のアイデア:トランス音訓変換、またはパズルのピースをはめる変換」はまだインターフェイスのイメージが固まってはいないのですが上記の手続きの流れで大体用を足せるであろうと考えています。
ポイントとなるのはあて込みのリード文字列がもうこれ以上ありませんよ、と示すために「閉じる動作」として再度②キーを押して登録作業の完了を伝達するという必須動作があることです。
「開催チュウ」のように読み後半部が漢字変換を必要としないカナ表記部分を残すのみ、という場合にはさらなる漢字変換の追加を受け付けないことを明示するために必要な動作です。
それ以外の「頭カナ」「語中カナ」のパターンは漢字充填が済み次第自動であて込みを閉じるとともに単語登録も済ませるという処理が手軽で流れに沿っていていいかと思います。
これらのインターフェイスはあくまで試案ですので今後の考察次第ではやり方を変えることもあるかもしれません。
とりあえずさまざまな表記の事例をひとつひとつ検討していって詳細を決めていきたいと思います。

あと、以前の記事中で懸案事項となっていた「焼肉 ばぁ場」の入力実現にはどうすればよいかという問題や「笑撃の事実」みたいな言葉遊びにも対応するにはどのようなインターフェイスにしていくのが良いのかについては今後このカテゴリで考察・提案していきたいかと思います。

それとここでやっと触れますが、「[Ø]活用」というカテゴリ文句も入っていますが、これはちょっと長めの複合語や、カナ先行部分のあるワードを代表変換のみで変換させたいときに区切り明示の便宜に役立つということで[Ø文字マーカー]の活躍する場面というのもこれらの変換と同時に伴ってくることもあると思いますので同じカテゴリに同居させてみました。
ひょっとしたら代表変換・トランス音訓変換に全く無関係で個別のトピックに言及するケースもあるかと思いますが、ちゃんぷる的にMIXしていってしまおうという方針に変わりはありません。
あとは登録ワンタッチキー・②キーと[通常変換]キーの連携組み立てに加えてこちらの[Ø]キーも入り混じった入力例についても個別に検討していければ良いなと思います。

たかが単漢字変換のためになぜこんなにややこしい仕組みをぶちあげていくのか、貴重なリソースについても決して馬鹿にならないほどの労力を注いででも実現したい裏付けはあるのか、疑問はおありかもしれませんが複合語・略語・未知語への対応手段として避けては通れない問題であると思いますのでどうぞお付き合いのほどよろしくお願いします。
まだ模索し始めたばかりで発展途上のアイデアですが、これは一大体系になり得るほどの未踏領域でありますので、手近な実例を地道に積み上げていっていきたいです。

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

[の][の]代表変換の発展形-「トランス音訓変換」と単語登録との連動

2018-07-31 | [Ø]活用と単漢字変換の打開策

「まきせくりす」から牧瀬紅莉栖の「莉」を探すのに難儀せずにもってくる賢いAIだったり、
覇王翔吼拳の「吼」をいきなりピンポイントでひねり出すことができるウルトラC的なインターフェイスの提案である「[の][の]代表変換」。
いわゆる単漢字変換でこのようなスノッブな漢字へのアクセスを容易にするという(うまくいけば?)画期的なシステムでありますが、
潜在ニーズをキッチリとらえていけるのかは未知数ではあるものの漢字変換の常識に新しい風を吹き込むようないい提案になっているかと思います。
この機能においてちょっと不思議なのは賽子さいころとか蝸牛かたつむりとか難読のものはあるけれどそういったのはあまり重要ではない、ということです。
「賽」とか「蝸」を単漢字でいざ出そうとするとそれはそれで大変なのですがこれらの漢字が他の全く別の語の中に断片的に入っているという場面というのはあまり想像ができないので単純に難しい漢字を出したいという風に捉えられてしまうのは完全な誤解であります。
むしろその本領を発揮するのは「島津亜矢」(演歌歌手)の「亜矢」が出したいとかであるとか「とうとい」の「尊」が出したいとか日常に潜むちょっとした手の届く範囲で同音語に埋もれていそうな漢字を引っ張り出していくところにあります。
「違うよ!こっちの方の亜矢だよ!」というからには同音の別の変換候補が多数あって、それらから目的の語をズバリ指し示す「こっち」という具体例がすぐに挙げられる場合にまさに必要とされる機能であります。

勢いついでに単漢字といっておきながらいきなり「亜矢」という二文字の語を出してしまいましたが人名は苗字+名前なので「しょうじさだお」で「東海林」を出すという苗字の方を出したいという逆パターンもあります。
しかし無秩序に二文字以上のパーツへの変換を認めてしまうと「偕老同穴」を代表変換したいときに「偕老」(かいろう)なのか「偕」だけ出したいのか解釈が分かれてしまうという問題が起きてしまいます。
それに二文字の場合も考慮しなくてはならないとすると、さしもの「代表漢字選考プロセスAI」といえど処理負荷が増加して適切に提示することが困難になってしまうことも考えられるのでここは許容するケースを絞って適用していきたいところです。
今のところこれにはハッキリと固まっている方針というものがまだ決まっておりませんが思いつく範囲で基準を探ってみたいと思います。
例えば「地球周回軌道」の「しゅうかい(周回)」は同音異義語も多く二文字で切り出すことも妥当かと思われますが集会の場合は「集会をする」と格助詞の「を」を伴って使われるのが自然ですし周回の場合は「周回する」と助詞を伴わないサ変動詞としての形態が特徴的で何も代表変換で呼び出したりせずとも前後周辺の文字列を見ればある程度は推測のつく旗色となっています。
また動詞としてではなく何かの複合語の一部として使われている場合でも周回のつく複合語は「周回チェック」「周回積分」「周回遅れ」ぐらいのものでこれさえ登録しておけばそれほど悩ましい需要もなさそうです。
ただし「京葉線」の「けいよう(京葉)」としてピックアップする場合には複合語で「京葉格安住宅」みたいに連接可能性もそこそこありそうですからこういうのは出せるようにしたいですし文字数も「京葉」の二文字でなければ意味がありません。
また四字熟語では「けんこんいってき(乾坤一擲)」のリードで「いってき(一擲)」を出そうにもそれほど意味はなさそうでこの四字熟語の場合にはむしろ第一候補で「擲」を、第二候補で「坤」を、それぞれ別々の単漢字が出せる構えにした方が好都合です。
なにぶん検討不足で確かなことは言えないのですが以上の傾向を考慮して二文字以上の代表変換は少し範囲を縮小して人名・地名・組織名・公共物・公官庁・サービス名・作品名・料理/生活関連固有物あるいは固有名詞に限って、
しかも一文字だけで有力候補がある場合はそちらの単漢字を優先にして…という条件付きで代表変換のリードワードに適用するものとします。
なお「投資する」の「投資」を出すような複漢字サ変動詞は「する」まで含めて、「抹香臭い」の「抹香」を出すような複漢字形容詞については完全末尾部分まで含めてリードにできるものとします。
こういったサ変動詞は主に2文字の漢語複合物であると同時にこの2文字のカタマリ一単位をもって断片配列されていくという経験的法則があります。
他では「大過ない」「如才ない」のように「たいか」「じょさい」ひとかたまりで処理した方が他の同音語ライバルと峻別できそうな形容詞(特に<漢語2文字>+<補助形容詞・軽形容詞>の形のもの)も多く見られます。
さらに「不興げ」のように接尾辞「げ」と結びついていることで形状性名詞部分を強調できて「不況」や「布教」と区別が明確になる例もありますし、「勇壮さ」のような形で「郵送」と見分けがつきやすくなる例も同様です。こちらも漢語2文字で一単位と考えユニット対応していくのも便宜が通っているのでこういうケースでは許容されるべきかと思います。
そういった取り決めですので、四字熟語や把握不可能な複合語、観念語、抽象語の類は避け、たとえ有名な作品名であったとしても「善徳女王」の「善徳」で二文字を抜き出したいんだ、という要望をぐっと抑えてこれらは単漢字のみへの代表変換対応としたいと思います。
多少物足りないところもありますが、基本は単漢字(あるいは機能ユニット)という指針を確立した方が機能としてもスッキリしてわかりやすいというものですのでどうぞご理解ください。

それと前回の記事の補足で前後いたしますが、代表漢字選考プロセスでの絞り込み要件の言及漏れとして
かくりょう 書く量のような装定形バリエーションは外す(○:閣僚の「閣」)
こいくち 濃い口のような装定形バリエーションは外す(○:鯉口の「鯉」)
という項目も加えておきたいかと思います。


さて、ここまでの単漢字変換だけでは対処できない文字の並びとして
・サ高住(サービス付き高齢者向け住宅):さこうじゅう
・グ浣(グリセリン浣腸):ぐかん
・日サ協(日本サイン協会):にっさきょう
・パ長(コンパ長):ぱちょう
のようなカナ・漢字混成略語のような例があります。
もちろん「日サ協」のような場合は「日」「サ」「協」出たもの順で選択確定していけばできないこともないのですが部分的逐次的煩雑さがあるのは否めません。
また他の「頭文字カナ+漢字」の場合は[の][の]代表変換では直前文字列の遡りで文字検知をしている関係上、カナ部分も含んで遡ってしまい提示候補に混乱をもたらしてしまうケースもあり参照範囲がハッキリしないという難点があります。
そこで「これから漢字変換すべき対象文字列の捕捉動作」というものをあらかじめ組み込んでおいてその後の単漢字代表リード文字列を複数回順次入力していって渦中の捕捉文字列(これは全ひらがなの読みだけの見出しのようなもの)に当てはめられる代表漢字を検知するごとに順序良く相当部分に漢字を変換していくというプロセスを経て複合語・略語の類を形成していくというインターフェイスを新たに提案したいと思います。
ちょっと説明だけではパッと呑み込めないと思いますので先程の「サ高住」の例でどのように入力していくか詳しく追ってみますと、
まず文を打ち込んでいるうちに「さこうじゅう」という言葉が出てきたとします。このときはまだ未変換文字列なので選択・確定する前に「今タイプした単語は多分変換できないだろうからこれから特別な変換操作を行うから準備してね」とコンピュータに伝達することを示すために、5月の過去記事で定めた「新別口入力を含む空き未定義キー①②③の3つのうち②のキー」を新たに「単語登録ワンタッチキー」として定義し、これをあらかじめ押しておいてから
代表変換と同じ要領でリード「たかい」→「高」が、見出し「こう」の部分に当てはめられ、続くリード「すむ」→「住」が見出し「じゅう」の読み部分に当てはめられていくという動作を考えてみました。
見出しというのは「さこうじゅう」というこれから変換したい言葉のべたかな文字列の事です。リードというのは「連想基片」とでも訳しておきましょうか…代表変換で単漢字を出すために投げかけるヒントワードの事です(「たかい」のヒントで代表漢字「高」を出す仕組み)。
見出し部分は主に音読みの構成音が並んでいる場合が多いと思われ、逆にリードでは音でも訓でも代表漢字を導きやすいものならどちらでも使われていくという傾向があります。
ここで話を戻すと「サ高住」の「高」と「住」は順次リードが入力された段階でそれぞれ「たかい[の][の]」で「高」が部分確定し、「すむ→[の][の]」で「住」が部分確定するとういう動作を想定しています。
このとき「サ高住」の「サ」は結局[の][の]変換でそれらしいリードを検知できなかったのでスルーされ、後続の「高」「住」が順次確定していったので出番がなく終わるということです。
なので「サ」の部分は非漢字=ひらがなかカタカナの単文字になるというのがわかるのですが、傾向的に略語の類はカタカナ要素が優勢であるかと思われるのでデフォルトはカタカナで変換される(見出し相当の漢字変換が完了した段階で最後に「サ」が確定する)ように設定しておくのがよいでしょう。
ここで重要なのは一度漢字になれるチャンスを過ぎてしまったものは(サ)他の「高」「住」が後から継ぎ継ぎ決定されていく最中にあってもう一度「去る」などの「さ」で漢字になれそうなリードがやっと出てきたとしても、もうすでに「高」「住」が決定した後となってはさかのぼって漢字が当てはめられるということはできない、ということです。
あて込みは順次不可逆の原則でお願いいたします。
ここで未定義キーとしていた②のキーの配置を示すために図で今一度確認して頂きたいと思います↓。

<図1:未定義キー②は登録ワンタッチキーとして盤面右側に配置>


<図2:トランス音訓変換orパズルのピースをはめる変換 の操作流れ図>

前記事の代表変換/棚卸し変換の考えを一歩進めて、もっと多様な複合語にも対応できるようオペレーションを拡張したものであるとご理解いただけるかと思います。
「対象文字列の捕捉動作」があるおかげで何を変換すべきか前もって分かったうえで変換できるのがこの変換の強みであります。
もっと厳密にいうと、捕捉動作発動は後置マーキングですので、「でにをは」などの助詞や「て・し・Ø文字マーカー」などの別口入力を挟んでいれば捕捉チャンクもセパレートに取り出せるというものですが、
・しかし確変度の期待感が薄い   しかしかくへんどの…
・至極ウサ饅頭(うさまんじゅう・造語)が食べたい   しごくうさまんじゅう…
・ウチばかり曲イタチ(くせいたち・造語)だらけだ   ばかりくせいたち…
・反日より用日だ   よりようにちだ…
などのように接続詞部分や副詞部分と捕捉ワードの境界が溶け込んでしまって解釈不全をおこしかねない例もありますし、
(×歯科資格辺土の--のような誤変換)や
(×死語空佐饅頭--のような誤変換)もなくはないです。
さらには
(×ウチ馬鹿陸生達--のような誤変換)のような「ばかり」(三文字副助詞)の捕捉間違えや
(×半日よ利用二値だ--のような誤変換)のような「より」(三文字格助詞)の捕捉間違えもケースによってはあるかもしれません。
とにかく単文字の別口入力がセパレーターとしてはたらいていない場合は捕捉境界に曖昧さが残ります。もちろん単純に長々複合した造語もあるでしょう。
これを防ぐためには無文字のセパレーターとして使えるØ文字マーカーを予防線的に配置しておくのもひとつの手です。
あとは「より・から・ばかり・まで・こそ」などの複文字助詞は適切な構文解析によって主題名詞なり構文中の補語なりとの機能上の違いを検出してうまく分異化できるのを期待するしかありません。

このあたりはまだハッキリしたことが確定していなくて幾分宙に浮いたような感じではありますが、このまま話を続けます。

複合語・造語・略語はとにかく多様な構成要素スタイルがあってそれらの全てを網羅することはできませんが、パッと収集した変換例になりそうなものでは、以下のものが挙げられると思います。
・ごち肉フェス(初回変換のときには御血肉と出て面喰いました)
・住まいる情報館
・うつ転
・彩響菊花火
・絶許
・とん食っ食

まず「ごちにくふぇす」ではリードに「肉」とだけはめ込んでいってそのままそこだけ漢字に変換できればよいかと思います。
大事なのは「フェス」部分をスルーしたまま当該見出し部分を「閉じる動作」です。適切に閉じないとどのタイミングで変換完了させるのかわかりません。
これは「ごち肉フェス目当てで…」などと続いていくようなときに捕捉範囲に順次漢字をあて込んでいく動作の継続をいったん終了させなければ見出し部分の受け入れがあふれてしまいます。
これが[が]や[の]など別口入力で新たにマーカーされたときやスペース・句読点・改行などで切れ目だと判断してよいところではこの新変換の動作は自動的に解消させるようにしていけばよいのですが、
何か適当なマーカーをはさまなかったときはそこで[通常変換]のキーを押してそこまでの変換進行を一度清算(?)しておく必要があるでしょう。
あるいはまだ長く続く複合語の一部だというのなら、[Ø文字マーカー]を適宜配置していくようにしておくべきです。
…このような調子で変換していけば何とか取り仕切りの道が見えてきそうな気がしますが、

続く「すまいるじょうほうかん」では見出し「す」の部分に「住む」の語幹部分の音「す:住」が充てこまれます。このように単体で「す」だけをあて込もうとすると普通は「酢」や「素」など計り知れない数の同音語に埋もれてしまうところですが、リードの代表変換で「すむ」と指定されているので「す」で「住」の単漢字が送りがなカットの状態でズバリもってこれるのは非常によくできていると思います。
その後の「じょうほうかん」の部分はスルーできないので閉じなければいけませんが最初の見出しで「すまいるじょうほうかん」とタイプしたのち「すむ」→住 のあて込みを挟んでまた漢字部分の「じょうほうかん」をあて込ませるために入力せねばならないのは二度手間で面倒なのですがこれは単語登録作業も兼ねているので読みと表記のデータを完成させるために我慢していただきたいところであります。
その際、「じょうほうかん」のところで閉じるために[通常変換]を押さなければなりませんがこのとき見出しの「じょうほうかん」とリードの「じょうほうかん」の入力が重複しているのを受けて、この部分は漢字変換しておこうと気を利かせてくれるようなふるまいをプログラムしておくことが重要です。
提示漢字が思っているものと違うときは順次連続で[通常変換]を押していけばよいですし、このときのキー動作は「捕捉を閉じる動作」をおこなうのと「リード重複部分の漢字変換のタスク」を同時に兼ねている機能であると理解していただきたいと思います。

「うつてん」については通常の仕方で入力すると「打つ点」が妥当な変換結果だと思いますが、この新変換では「転」だけ漢字にしたいのであってその前にある「うつ」はリードで触れない場合は基本カタカナですからこのままだと「ウツ転」という表記が第一候補に出てしまうと思われます。
「転」についてはリードで「ころぶ」と訓からアクセスした方が最短距離ですし問題はなさそうなのですが「ウツ」とカタカナになってしまうのはちょっとモヤモヤしてしまいます。
この点については解決方法として[通常変換]を押した後に盤面中央にある「かな」キーを押せば「ウツ」の部分だけそっくりそのまま「うつ」に訂正することができます。「転」の部分は漢字のままです。特にカーソル移動で作用範囲を指定するといったこともありません。
これについてはこのブログではお馴染みのカナ変換時の漢字部分無干渉変換の考え方とほぼ同じ仕組みであります。
思い出しのため説明しますと三属性変換で「げーじつてき」を属性ハ(接尾辞つきワード)で変換させるとこれは未知語なため一旦「げーじつ的」と変換されますがこれを「ゲージツ的」と「的」を漢字で残したままそれ以外をカタカナで変換させたいときに接辞の「的」には一切影響をあたえずに[カナ]キーを押すだけで「げーじつ」の部分だけそっくりカナ表記に訂正するという機能のことです。
今回の「うつ転」の場合も「転」がリード入力で漢字に変換されたことを踏まえてその後の[かな]キー操作の際にはこの漢字部分「転」は「不変部分」で「無干渉に作用させるもの」として扱うという意味において、先程の「的」が接尾語として部分Fixオペレーションを済ませていることを酌んだ処理とも全く符合するものであります。
ひと手間掛かりますが、後付けで軌道修正できるので幅広く応用できる操作だと思いますし、何より変換対象範囲の伸ばし・縮め操作が一切不要で流れのままで[かな]キーを一つ押すだけで解決するのがいいところです。

そして「さいきょうぎく」については「さい」は「いろどり」の「彩」をはめて「きょう」は「ひびき」の「響」をあてるところまでは順当ですが、最後の「ぎく」をあてるときに濁らない素の「きく」から「ぎく」の音の見出しへ解釈できるような細かいチューニングが必要になってきます。
これは「ずり」に対して「刷る(刷)」をあてるような動詞連用形などのときにも同様に濁りを酌んで変換させるような配慮が求められるのと同じ図式です。このへんは見出し・リード共に連用形でそろえた方が一見良さそうですがやはり連用形は他の名詞と混同しやすくなってしまうのでリードの方だけはU段で終止感の出ている基本形(終止形)で引っ張っていた方が安心だと思います。

続く「ぜつゆる」もネットスラングではありますが「絶対」が「ぜっ」と発音するにもかかわらず見出しの「ぜつ」にうまくはめ込まれるようにここでも微妙な変換のチューニングが求められるところです。
「許」の部分に関しても通常では「ゆるす」と終止形で出すものではありますが、ここでは「ゆるさない」と否定形で入力してもアリ、なように柔軟に解釈してほしいところです。
ここのところは先程の「濁音化構成音でも原形から解釈する処置」の件とともに「促音化しない原形のままの構成音のときでもうまく当て込む処置」が表記の勘所として注意しこれらには着実に対応していきたいと思います。

最後に「とんくっく」の読み見出しでは「くう」ではなく「たべる」から「食」を出す代表提示の際に、「くう=食う=食べる」と異なる訓の同一性を認識して「く」の部分にあて込むようなインターフェイスはちょっと複雑ながらもぜひ実現してほしいものです。
さきほどの「住まいる情報館」の例の「す」あて込みと考え方は同じですが、異なる訓も乗り越えて解釈させるという点においてこちらはもう一段手間のかかるものとなっておりますが決して無理な注文ではないと思いますのでどうか助力いただきたい次第であります。

これで綺麗にシメたいところだったのですが、ここで「焼肉 ばぁ場」という店名が目に入ってきてしまいました。
これは「ばしょ」で「場」を出せるのは容易に思い至りますが、最初の「ばぁ」をあて込まずにスルーして末尾の「ば」だけを漢字にしたいということでそのとり捌きがいやはやなんともお手上げな状態となってしまいます。
同音が複数ある例では一の太刀、二の太刀で漢字化が一致しない使い分けも確かに存在しそうですし先行要素が非漢字、なおかつ同音の後行要素こちらは漢字に、などということは想定外でしたのでここへ来てから思わぬ弱点を露呈させてしまうという一例になってしまいました。
これについては紙面も足りなくなってきそうですので(というかまだ解決法が思いつかない)、今後の考察でのちのち検討していく事にしたいと思います。


…以上、長々と論じてきましたがこの新変換の名称もまだ決まっておりません。
説明中でチラッと出てはきましたが自分的には「トランス音訓変換」か「パズルのピースをはめる変換」と、ちょっとケッタイな名称を検討しています。
「トランス音訓変換」というのは「さい」を変換するのに「ふたたび」のリードをあてて漢字の「再」を出すといった風に、「さい」「ふたたび」という音・訓両方の決定要因を飲み込んでいるところが音訓横断的で単に音読みの語/訓読みの語だけもってしてを[読み→変換漢字]と単一に紐づけしているのではなくて、
もっと複眼的に「見出しの文字列(ひらがなの読み)」-「漢字構成物の部分部分(漢字:だいたいは音が多い)」-「部分単漢字の代表引き出し(連想リード:音でも訓でも)」
の3つの決定要因、つまり3項参照によって音訓を自在に行き来しながら変換していくプロセスをざっくり言い表す言葉として「トランス音訓変換」と名付けました。
いわば「トランス音訓データのフル活用」を謳ったものであり、従来の単語辞書では読みと単語のその場限りの対応紐づけに留まっているのは実にもったいないのではないか、ひとつの漢字というものが音読みも訓読みも併呑して立体的な複合体になっているのだというありかたを存分に利用しようではないかという野心的な試みでもあります。

もう一つのネーミングは「パズルのピースをはめる変換」、とちょっと比喩的な表現となっておりますがこれ以上ないほど[対象文字列の捕捉動作]から[単漢字それぞれのパーツを代表変換であて込む]プロセスまでが一連のジグソーパズルのようでもあることを如実に表したネーミングはこの他には考えられません。
先程の「トランス音訓変換」では常に音読み訓読みを行き交っているかのようなイメージをあたえますが、実際には音だけ、訓だけで完結する素直(?)な例も十分あり得ますのでこちらのような限定感を与えない実態に沿ったネーミングも捨てがたいところです。
いずれにしてもこのコンセプト自体まだまだ掘り下げが足りないと思っておりますので、今後の議論・考察の過程の中から相応しい名称を決めていければよいかと思います。
肝心の②番の新・ワンタッチ登録キーを具体的にどう機能させて流れの中にどう位置付けていくのかについても少ししか触れていませんでしたので(実は自分自身まだよくわかっていません)こちらもいずれということで継続していきたいと思いますのでどうかお待ちください。

さてこの他にも熟字訓の場合はどうするのか、音訓のほかに簡単な英単語(カタカナで)を漢字に対応させてみるのはどうか、などまだまだ検討事項は沢山ありますのですが今回はここまでにして
今後の内容がひとまとめになる程度まで試行錯誤しつつ、このトピックの追記事がいつになるのかはわかりませんがじっくりと練り込んでいきたいかと思います。
連日の長文記事に付き合っていただき通読胃もたれをおこしてしまった読者の方もいらっしゃるのではないかと心配しておりますが次回はちょっと軽い記事にしたいと思いますのでよろしくお願いいたします。

 

 

[2021.6.3 補足追加]
この記事のキモは入力文の音素情報のみから変換文をひねり出すということではなくて(1対1対応)、
読み情報、音読み可能性、訓読み可能性の3項参照で適切な変換文を生成するということ(いわば3項のすりあわせ)であります。
論点も散漫でちょっと読みづらい長文になってしまいました。

新カテゴリ「[Ø]活用と単漢字変換の打開策」 - P突堤2

の記事のほうがレイター記事になっており、より要領を得た説明になっているかと思いますので
よければそちらのほうをご覧になって下さい。

 


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

単漢字入力の新アイデア [の][の]代表変換

2018-07-24 | [Ø]活用と単漢字変換の打開策
名称は未定ですが、漢字変換まわりのインターフェイスであたためているアイデアがちょこちょこあります。
たとえばこんなのがあります。
「香薫あらびきポーク」という商品名をタイプしたいときに、「香薫」というワードが初回入力時にはどの字をあてて良いかわからないため、香りという字を出してから「り」を削り、薫風という字を出してから「風」を削り…といった調子で煩雑でややこしい入力になっていました。
そこでちょっと特殊な操作なんですが、別口入力の[の]を2回連続で[の][の]のように打ち込むとその直前のワードのすぐ思いつく漢字を"代表"変換して単漢字で出すというものです。
ちょっと分かりにくいので説明しますと、「香薫」とタイプで出したいときに
かおり[の][の]、と打ち込むと送り仮名のない「香」が単漢字で変換候補筆頭にあがり、([]は別口入力)
くんぷう[の][の]、と打ち込むと「薫風」のうち代表的な待望漢字:「薫」がピンポイントで変換候補にあがり、
両者を通しで入力すると、「香薫」が一発で変換できる…というものです。
この機能を仮に名付けて、「代表変換」か「棚卸し変換」として単漢字変換の目玉ギミックとして新たに提案したいと思っています。
[の][の]というのは「ニワトリの鶏」「干支の酉」のように「○○の○○」といった指定例示の用法の言い回しの感覚をそのまま別口入力タイプ化したもので、
普段別口入力[の]が2連続でタイプされることはありませんから、これを特殊なストロークと検知して[の][の]の直前のワードを抽出して薫風なり綺麗なりといった語に変換できる用意があるよとしたうえで
その文字列のうちあえて断片的に出したいであろう単漢字を一つ提示して「薫」なり「綺」なりのちょっとスノッブな方の漢字を省アクセスして変換してしまおうという目論見の新たな変換操作です。
「代表変換」といっても必ずしも使用頻度の多い漢字が選択されるわけではなく、稀少性があってその音の同音候補も多くよりアクセス困難度の高いものを選好するというメカニズムを想定しています。
なのでニュアンス的には「代表」というよりもちょっとひねって「棚卸し」変換とネーミングした方が良いかもしれませんがこのへんはまだ思案中です。

同様に「天保異聞 妖奇士(てんぽういぶん あやかしあやし)」というアニメタイトルも初回ではとても入力できそうにありませんが
ようかい[の][の]で「妖怪」の「妖」を出して(あるいは「あやかし」で直接単漢字の「妖」を出すこともできる)
きみょう[の][の]で「奇妙」の「奇」を同様に出し
さむらい[の][の]で「士」をダイレクトに出していき、3文字配列したところでEnterを押すと「妖奇士」が確定できるといった具合です。削除動作は一切ありません。

ここで細かい考察を加えますと、「あやかし」から「妖」をダイレクトに出すことは結構地味に画期的な事であると強調しておきたいと思います。
あやかしを普通に変換する段においては「あやかし緋扇」や「あやかし草子」といったひらがな表記の語も多いため通常変換では「妖」を単漢字で一発で出せる期待度は通常より低下し、不確定です。
そこへきてこの[の][の]変換においては単漢字変換が目的ですから漢字表記のものとしてダイレクトにアクセスできるところがハッキリしていて単漢字変換の目的に特化されています。ここが大きな違いです。
「奇妙」においては「奇」も「妙」もどちらも選ばれる可能性があるのですが、より同音漢字で埋もれやすい「奇」をピンポイントで出してきています。単漢字で「奇」を出すのは結構手間がかかります。
そして最後の「士」ですがさむらいというつづりでは侍という字もありますがこれは断片要素として使われることはまれで必要度の面から言っても「士」を代表として出すのは至極妥当な事です。
わざわざ「消防士」とやってから出すより即応的でもあり何より生産力の高いパーツですので代表要素にふさわしい候補であります。

そういった稀少性・断片活躍性・同音埋没性・生産力のファクターを個々に勘案して適切に代表漢字を提示する壮大な仕組みなのですが、これらのファクター以外にもケースバイケースで振り分けられる一定の傾向みたいなのも種々ありそうです。例を挙げると、
・「催促」の「催」は最上位候補、「最速」のような属性ハの候補は敬遠する
・「枯れる」の「枯」は上位、「狩れる」などのモダリティバリエーションは外す
・「加工」の「加」は上位、「書こう」などのモダリティバリエーションは外す
・どちらの成分が上位か判断が拮抗する場合には、画数の多い方を優先する
・「せいのじ」の場合は[の]別口入力せずべたで「せいのじ」:結果「正の字」の「正」を出す:慣用連語代表の考え方
・「わける」[の][の]→「分」、「わけ」[の][の]→「訳」
・「こうおつ」の「甲」、「こうおつへいてい」なら「丙」
・「じょうしする」[の][の]→「梓」:サ変動詞「上梓する」より
・「にる」だと順位不明だが「にている」なら「似」、「にこむ」なら「煮」が出る
・「いし」は「石」を出しても元々単漢字で意味がないので「意志」(「医師」は医者で代替が効くので軽視)そして代表漢字は「志」・同音埋没配慮から
・「あやか」の場合は種々人名があるが歌手の「絢香」の「絢」、有名人ということで有標性があるし字も固有

色々考えられそうなケースをあげてみましたが個別に説明していきますと、
「最速」のような属性ハの候補は敬遠する、というのはあくまで感覚的にそうした方が良いだろう程度の見解なのですが、例えば別の属性ハの「亭」や「邸」などの属性ハ(接頭語接尾語)のもののように連接範囲が広すぎて不確定要素が大きい、あるいは「江川邸」のとわざわざ邸をつけてまでも説明したい語というのはあまりなさそうですし、
同じ「てい」の音をもつ同音接辞というのは得てして増えがちであり代表提示が困難になる可能性をもっているという事情もあります。もともと接辞は漢語由来で定型的な音素が多く同音語の温床でもありますのでこれは仕方がありません。
なので基本的には属性ハをもつワードは敬遠しても良いかと思います。(「末廣亭」の「廣」のように重宝しそうな例もありますが…)
「狩れる」や「書こう」のようなモダリティバリエーションは外すというところにおいても典型的・代表的なものを出したいのですから動詞や形容詞の入力は基本形(辞書形)の活用のものにするというのが自然というものでしょう。
べたの「せいのじ」と入力させるのは別口入力の[の]で区切られてしまうと[の][の]代表変換の直前の語の参照が[の]以前のところまで届かずに断片化してしまう危険性を避けるためでこういった慣用的な成句においては頻出しそうなものはべたの字面でもデータ格納しておく必要性があるかと思います。
例えば「縁」についても「ひとのえん」で出せるようにしたり、[の]に限らず「たまにきず」で「玉に疵」の「疵」を出したりできるようにするなどこういった慣用成句は他にもいろいろありそうです。
「こうおつへいてい」については全体形(こうおつへいてい)と一部形(こうおつ)が重複部分があるにしても全体をスコープしているのであれば代表候補が差し替えられる可能性も担保しておきたいという視点を残すということです。
これに似た例としては「おかめ」で「岡目」の「岡」、「おかめはちもく」で「傍目」の「傍」が出せるなどのケースもあるかと思います。
「じょうしする」のようなサ変動詞については、使用形態に則して「~する」まで含めてタイピングするのが差別化のために理に適っているかと思います。
「にている」「にこむ」のような一般動詞/複合動詞についても適宜固有例を出して弁別できる構えをするのがベターです。
「いし」において「医師」と「意志」の衝突回避についてもより日常的な「医者」という代表語をもつものはあえてよそ行きのときに出しゃばらず、そこを自重するのはより穏当な解決手段です。
「絢香」のような有名人の人名がある種のスノッブ漢字の指標となっていて変換の素材となるのはユーザーのコモンセンスのうえからも土壌が共通化できてよいかと思います。
人名の収録においては、闇雲に流行を意識したミーハーなセレクションというよりも、「絢」のような固有・スノッブ漢字をもつものを有名無名にかかわらず収録して「この字が出したいんだ」というポインタとしての要請に適うものを集めていけばよいかと思います。
なお、ひとつ目の代表漢字候補でマッチしないときには[の]をさらに連打して別の構成漢字を順繰りに出していくかあるいは[の]連打が重複し過ぎると慌てて通り過ぎてしまう可能性もあるので別候補を繰り出したいときは[通常変換]キーに押し換えて入力していけばよいかと考えています。
いずれにしても代表変換ですので先述の条件で絞られるよう選択提示して、妥当な第一候補が出せれば大きな不満は出てこないであろうと思います。

ここまで列挙したもの以外の補足的な事項としましては、動詞の「忍び」「光り」「話し」がそれぞれ連用形転成名詞として単漢字表記を好む用途に向けて属性イ(イ万)であえて変換させた「忍」「光」「話」を出すための操作(三属性変換)や、
同じく三属性変換の属性イ(イ万)の操作で、「焼肉」「受付」「取組」など送り仮名をともなわない、「表記ゆれを漢字のみで構成する複合語に集約化する機能」のようにすでに似たような機能が三属性変換の名詞属性用途で提案されています。
詳しくはこちらの記事↓をご覧ください。
連用形転成名詞の一部は、表記上のニュアンスを区別するためよろづを使い分ける - P突堤2

ここのところは連用形転成名詞ということもあってか活用形が連用形ですので[の][の]代表変換のように動詞の受け付けは基本形(辞書形)を原則とする活用形指定とは一線を画すものであります。なので
よろづイ万の連用形転成名詞の変換    →  活用形:連用形
[の][の]代表変換の動詞呼び出しワード  →  活用形:基本形(終止形・辞書形)
のように明確に住み分けして微妙な使い分けを確立していきながら利用してもらえればと思います。


ここまで[の][の]代表変換のおおまかな想定動作要件についてあれこれ考察してきましたがああしろ、こうしろと言う割には具体的なメカニズムの設計には触れずじまいだという調子で全くふがいないのですが、
すべての代表漢字・単漢字を出すための呼び出しワードをひとつひとつ紐づけするのはおそらく無理そうですし、
「ひろう」で「疲労」の「疲」が出てしまうのを避けるため「かんせいひろう」で「完成披露」の「披」を出したりする工夫がせっかくあったとしても「完成披露」のような複合語は処理の関係上すべてをカバーするのは困難ではないのか、データ網羅対応はどうするのかという問題が出てきたりします。
要は目的の代表漢字を呼び出すためのデータを膨大に備えればよいといった力任せの業は通用する見込みはないので漢字の読みと変換文字列や頻度情報などの基礎データだけからその都度代表漢字を推測するといった半自動化された賢い仕組みの助けが必ず必要になってきます。
先述のさまざま列挙したファクターの計算結果を瞬時に導き出して動的に動作するものは片やすべての代表漢字を個別網羅的に納める静的な動作のものではなくても、それと同等か遜色なく機能するように柔軟に設計された「代表漢字選考プロセスAI」のような特化した基盤プロセスみたいなものをのん気に夢想しているところであります。
勿論その実現のためには基礎データに添える補助データとして「漢字のスノッブ度」とか「同音語ライバルの多寡」といった固有のデータを新たに付け加える必要もあるかもしれませんが、個別的な周知の複合語でない、未知の組み合わせの複合語からも代表漢字を適切に選び出すことができれば言うことないですし、
何よりも誰もが代表漢字だと思うわかりやすさの「妥当性」だけではなくて、代表漢字を絞り込むさまざまな要件のファクターを忠実にフィルター濾しするその「納得感」ともバランスして両立する絶妙なさじ加減も求められる熟練を要する"ミッション"でもあるのだと思います。
アイデアそのものは単純な発想ですがそれを実現するためにはまだまだもって今後のより深い分析が求められているのだとこちらとしても十二分に自覚していかなければなりませんね。

最後に書き忘れていたのですが、打鍵キーについて別口入力[の]はキーボード下部左右に2つ配置されておりますが、どの別口入力からでも広く前後を問わず連接するというポテンシャルをもっているため特別にこれが認められています。
なので[の][の]連続打鍵にしても片側連続なのか交互連続なのか2つの場合があるかと思います。
今回の[の][の]代表変換におきましては、そのうち片側連続打鍵のものだけをストローク検知対象としたい方針です。
理由はそんなに深いものではありませんが、「のの」連続する文はほとんど見られないものの、準体助詞の「の」と格助詞の「の」が重なった
・すっかりひれ伏しているののなんと愉快な事か
みたいな用法においては連続で使われる例もなくはないのでこの例に対応する余地を残しておくためにこちらの場合は「の」交互打鍵でのタイプ可能性を残しておくべきかと考えました。
したがって特殊ストロークである[の][の]はより限定された片側連続打鍵に限って適用するものとします。
この辺、デバイス的なキーアサインにおいて面倒な処理になるかも知れませんが開発者の方にはどうかご容赦願いたいと思います。


以上で単漢字入力問題の有力な解決策となるかも知れない[の][の]代表変換でしたが、今回の記事で終わりというわけではありません。
単漢字に限らず、「地球周回軌道」の「周回」という2文字での代表漢字を出したい場合もありますし、「笑撃の事実」みたいな言葉遊びでよくみられるもじりを円滑に実現するのにはどうすればよいかという問題もあります。
何よりこの機能(とその発展事項)の周辺には今までなかった新語や独特の言葉遣いとも密接な関係性がありますから、同時に単語登録機能とも連動した何か新しいシステムの要請も結局ついて回ることになります。
次回以降ではもう少しその辺を突っ込んでより考察を深めていきたいと思いますので追記事の投稿がいつになるのかはわかりませんが近いうちに書き上げたいのでそれまでしばらくお待ちください。


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする