P突堤2

「でにをは」別口入力・三属性の変換による日本語入力 - ペンタクラスタキーボードのコンセプト解説

初めて訪問された方へ

P突堤2へようこそ!
キーボードの配列・機能の説明はこちらです。
お知らせや補足事項なども表示してあります。

[の][の]代表変換の発展形-「トランス音訓変換」と単語登録との連動

2018-07-31 | [Ø]活用と単漢字変換の打開策

「まきせくりす」から牧瀬紅莉栖の「莉」を探すのに難儀せずにもってくる賢いAIだったり、
覇王翔吼拳の「吼」をいきなりピンポイントでひねり出すことができるウルトラC的なインターフェイスの提案である「[の][の]代表変換」。
いわゆる単漢字変換でこのようなスノッブな漢字へのアクセスを容易にするという(うまくいけば?)画期的なシステムでありますが、
潜在ニーズをキッチリとらえていけるのかは未知数ではあるものの漢字変換の常識に新しい風を吹き込むようないい提案になっているかと思います。
この機能においてちょっと不思議なのは賽子さいころとか蝸牛かたつむりとか難読のものはあるけれどそういったのはあまり重要ではない、ということです。
「賽」とか「蝸」を単漢字でいざ出そうとするとそれはそれで大変なのですがこれらの漢字が他の全く別の語の中に断片的に入っているという場面というのはあまり想像ができないので単純に難しい漢字を出したいという風に捉えられてしまうのは完全な誤解であります。
むしろその本領を発揮するのは「島津亜矢」(演歌歌手)の「亜矢」が出したいとかであるとか「とうとい」の「尊」が出したいとか日常に潜むちょっとした手の届く範囲で同音語に埋もれていそうな漢字を引っ張り出していくところにあります。
「違うよ!こっちの方の亜矢だよ!」というからには同音の別の変換候補が多数あって、それらから目的の語をズバリ指し示す「こっち」という具体例がすぐに挙げられる場合にまさに必要とされる機能であります。

勢いついでに単漢字といっておきながらいきなり「亜矢」という二文字の語を出してしまいましたが人名は苗字+名前なので「しょうじさだお」で「東海林」を出すという苗字の方を出したいという逆パターンもあります。
しかし無秩序に二文字以上のパーツへの変換を認めてしまうと「偕老同穴」を代表変換したいときに「偕老」(かいろう)なのか「偕」だけ出したいのか解釈が分かれてしまうという問題が起きてしまいます。
それに二文字の場合も考慮しなくてはならないとすると、さしもの「代表漢字選考プロセスAI」といえど処理負荷が増加して適切に提示することが困難になってしまうことも考えられるのでここは許容するケースを絞って適用していきたいところです。
今のところこれにはハッキリと固まっている方針というものがまだ決まっておりませんが思いつく範囲で基準を探ってみたいと思います。
例えば「地球周回軌道」の「しゅうかい(周回)」は同音異義語も多く二文字で切り出すことも妥当かと思われますが集会の場合は「集会をする」と格助詞の「を」を伴って使われるのが自然ですし周回の場合は「周回する」と助詞を伴わないサ変動詞としての形態が特徴的で何も代表変換で呼び出したりせずとも前後周辺の文字列を見ればある程度は推測のつく旗色となっています。
また動詞としてではなく何かの複合語の一部として使われている場合でも周回のつく複合語は「周回チェック」「周回積分」「周回遅れ」ぐらいのものでこれさえ登録しておけばそれほど悩ましい需要もなさそうです。
ただし「京葉線」の「けいよう(京葉)」としてピックアップする場合には複合語で「京葉格安住宅」みたいに連接可能性もそこそこありそうですからこういうのは出せるようにしたいですし文字数も「京葉」の二文字でなければ意味がありません。
また四字熟語では「けんこんいってき(乾坤一擲)」のリードで「いってき(一擲)」を出そうにもそれほど意味はなさそうでこの四字熟語の場合にはむしろ第一候補で「擲」を、第二候補で「坤」を、それぞれ別々の単漢字が出せる構えにした方が好都合です。
なにぶん検討不足で確かなことは言えないのですが以上の傾向を考慮して二文字以上の代表変換は少し範囲を縮小して人名・地名・組織名・公共物・公官庁・サービス名・作品名・料理/生活関連固有物あるいは固有名詞に限って、
しかも一文字だけで有力候補がある場合はそちらの単漢字を優先にして…という条件付きで代表変換のリードワードに適用するものとします。
なお「投資する」の「投資」を出すような複漢字サ変動詞は「する」まで含めて、「抹香臭い」の「抹香」を出すような複漢字形容詞については完全末尾部分まで含めてリードにできるものとします。
こういったサ変動詞は主に2文字の漢語複合物であると同時にこの2文字のカタマリ一単位をもって断片配列されていくという経験的法則があります。
他では「大過ない」「如才ない」のように「たいか」「じょさい」ひとかたまりで処理した方が他の同音語ライバルと峻別できそうな形容詞(特に<漢語2文字>+<補助形容詞・軽形容詞>の形のもの)も多く見られます。
さらに「不興げ」のように接尾辞「げ」と結びついていることで形状性名詞部分を強調できて「不況」や「布教」と区別が明確になる例もありますし、「勇壮さ」のような形で「郵送」と見分けがつきやすくなる例も同様です。こちらも漢語2文字で一単位と考えユニット対応していくのも便宜が通っているのでこういうケースでは許容されるべきかと思います。
そういった取り決めですので、四字熟語や把握不可能な複合語、観念語、抽象語の類は避け、たとえ有名な作品名であったとしても「善徳女王」の「善徳」で二文字を抜き出したいんだ、という要望をぐっと抑えてこれらは単漢字のみへの代表変換対応としたいと思います。
多少物足りないところもありますが、基本は単漢字(あるいは機能ユニット)という指針を確立した方が機能としてもスッキリしてわかりやすいというものですのでどうぞご理解ください。

それと前回の記事の補足で前後いたしますが、代表漢字選考プロセスでの絞り込み要件の言及漏れとして
かくりょう 書く量のような装定形バリエーションは外す(○:閣僚の「閣」)
こいくち 濃い口のような装定形バリエーションは外す(○:鯉口の「鯉」)
という項目も加えておきたいかと思います。


さて、ここまでの単漢字変換だけでは対処できない文字の並びとして
・サ高住(サービス付き高齢者向け住宅):さこうじゅう
・グ浣(グリセリン浣腸):ぐかん
・日サ協(日本サイン協会):にっさきょう
・パ長(コンパ長):ぱちょう
のようなカナ・漢字混成略語のような例があります。
もちろん「日サ協」のような場合は「日」「サ」「協」出たもの順で選択確定していけばできないこともないのですが部分的逐次的煩雑さがあるのは否めません。
また他の「頭文字カナ+漢字」の場合は[の][の]代表変換では直前文字列の遡りで文字検知をしている関係上、カナ部分も含んで遡ってしまい提示候補に混乱をもたらしてしまうケースもあり参照範囲がハッキリしないという難点があります。
そこで「これから漢字変換すべき対象文字列の捕捉動作」というものをあらかじめ組み込んでおいてその後の単漢字代表リード文字列を複数回順次入力していって渦中の捕捉文字列(これは全ひらがなの読みだけの見出しのようなもの)に当てはめられる代表漢字を検知するごとに順序良く相当部分に漢字を変換していくというプロセスを経て複合語・略語の類を形成していくというインターフェイスを新たに提案したいと思います。
ちょっと説明だけではパッと呑み込めないと思いますので先程の「サ高住」の例でどのように入力していくか詳しく追ってみますと、
まず文を打ち込んでいるうちに「さこうじゅう」という言葉が出てきたとします。このときはまだ未変換文字列なので選択・確定する前に「今タイプした単語は多分変換できないだろうからこれから特別な変換操作を行うから準備してね」とコンピュータに伝達することを示すために、5月の過去記事で定めた「新別口入力を含む空き未定義キー①②③の3つのうち②のキー」を新たに「単語登録ワンタッチキー」として定義し、これをあらかじめ押しておいてから
代表変換と同じ要領でリード「たかい」→「高」が、見出し「こう」の部分に当てはめられ、続くリード「すむ」→「住」が見出し「じゅう」の読み部分に当てはめられていくという動作を考えてみました。
見出しというのは「さこうじゅう」というこれから変換したい言葉のべたかな文字列の事です。リードというのは「連想基片」とでも訳しておきましょうか…代表変換で単漢字を出すために投げかけるヒントワードの事です(「たかい」のヒントで代表漢字「高」を出す仕組み)。
見出し部分は主に音読みの構成音が並んでいる場合が多いと思われ、逆にリードでは音でも訓でも代表漢字を導きやすいものならどちらでも使われていくという傾向があります。
ここで話を戻すと「サ高住」の「高」と「住」は順次リードが入力された段階でそれぞれ「たかい[の][の]」で「高」が部分確定し、「すむ→[の][の]」で「住」が部分確定するとういう動作を想定しています。
このとき「サ高住」の「サ」は結局[の][の]変換でそれらしいリードを検知できなかったのでスルーされ、後続の「高」「住」が順次確定していったので出番がなく終わるということです。
なので「サ」の部分は非漢字=ひらがなかカタカナの単文字になるというのがわかるのですが、傾向的に略語の類はカタカナ要素が優勢であるかと思われるのでデフォルトはカタカナで変換される(見出し相当の漢字変換が完了した段階で最後に「サ」が確定する)ように設定しておくのがよいでしょう。
ここで重要なのは一度漢字になれるチャンスを過ぎてしまったものは(サ)他の「高」「住」が後から継ぎ継ぎ決定されていく最中にあってもう一度「去る」などの「さ」で漢字になれそうなリードがやっと出てきたとしても、もうすでに「高」「住」が決定した後となってはさかのぼって漢字が当てはめられるということはできない、ということです。
あて込みは順次不可逆の原則でお願いいたします。
ここで未定義キーとしていた②のキーの配置を示すために図で今一度確認して頂きたいと思います↓。

<図1:未定義キー②は登録ワンタッチキーとして盤面右側に配置>


<図2:トランス音訓変換orパズルのピースをはめる変換 の操作流れ図>

前記事の代表変換/棚卸し変換の考えを一歩進めて、もっと多様な複合語にも対応できるようオペレーションを拡張したものであるとご理解いただけるかと思います。
「対象文字列の捕捉動作」があるおかげで何を変換すべきか前もって分かったうえで変換できるのがこの変換の強みであります。
もっと厳密にいうと、捕捉動作発動は後置マーキングですので、「でにをは」などの助詞や「て・し・Ø文字マーカー」などの別口入力を挟んでいれば捕捉チャンクもセパレートに取り出せるというものですが、
・しかし確変度の期待感が薄い   しかしかくへんどの…
・至極ウサ饅頭(うさまんじゅう・造語)が食べたい   しごくうさまんじゅう…
・ウチばかり曲イタチ(くせいたち・造語)だらけだ   ばかりくせいたち…
・反日より用日だ   よりようにちだ…
などのように接続詞部分や副詞部分と捕捉ワードの境界が溶け込んでしまって解釈不全をおこしかねない例もありますし、
(×歯科資格辺土の--のような誤変換)や
(×死語空佐饅頭--のような誤変換)もなくはないです。
さらには
(×ウチ馬鹿陸生達--のような誤変換)のような「ばかり」(三文字副助詞)の捕捉間違えや
(×半日よ利用二値だ--のような誤変換)のような「より」(三文字格助詞)の捕捉間違えもケースによってはあるかもしれません。
とにかく単文字の別口入力がセパレーターとしてはたらいていない場合は捕捉境界に曖昧さが残ります。もちろん単純に長々複合した造語もあるでしょう。
これを防ぐためには無文字のセパレーターとして使えるØ文字マーカーを予防線的に配置しておくのもひとつの手です。
あとは「より・から・ばかり・まで・こそ」などの複文字助詞は適切な構文解析によって主題名詞なり構文中の補語なりとの機能上の違いを検出してうまく分異化できるのを期待するしかありません。

このあたりはまだハッキリしたことが確定していなくて幾分宙に浮いたような感じではありますが、このまま話を続けます。

複合語・造語・略語はとにかく多様な構成要素スタイルがあってそれらの全てを網羅することはできませんが、パッと収集した変換例になりそうなものでは、以下のものが挙げられると思います。
・ごち肉フェス(初回変換のときには御血肉と出て面喰いました)
・住まいる情報館
・うつ転
・彩響菊花火
・絶許
・とん食っ食

まず「ごちにくふぇす」ではリードに「肉」とだけはめ込んでいってそのままそこだけ漢字に変換できればよいかと思います。
大事なのは「フェス」部分をスルーしたまま当該見出し部分を「閉じる動作」です。適切に閉じないとどのタイミングで変換完了させるのかわかりません。
これは「ごち肉フェス目当てで…」などと続いていくようなときに捕捉範囲に順次漢字をあて込んでいく動作の継続をいったん終了させなければ見出し部分の受け入れがあふれてしまいます。
これが[が]や[の]など別口入力で新たにマーカーされたときやスペース・句読点・改行などで切れ目だと判断してよいところではこの新変換の動作は自動的に解消させるようにしていけばよいのですが、
何か適当なマーカーをはさまなかったときはそこで[通常変換]のキーを押してそこまでの変換進行を一度清算(?)しておく必要があるでしょう。
あるいはまだ長く続く複合語の一部だというのなら、[Ø文字マーカー]を適宜配置していくようにしておくべきです。
…このような調子で変換していけば何とか取り仕切りの道が見えてきそうな気がしますが、

続く「すまいるじょうほうかん」では見出し「す」の部分に「住む」の語幹部分の音「す:住」が充てこまれます。このように単体で「す」だけをあて込もうとすると普通は「酢」や「素」など計り知れない数の同音語に埋もれてしまうところですが、リードの代表変換で「すむ」と指定されているので「す」で「住」の単漢字が送りがなカットの状態でズバリもってこれるのは非常によくできていると思います。
その後の「じょうほうかん」の部分はスルーできないので閉じなければいけませんが最初の見出しで「すまいるじょうほうかん」とタイプしたのち「すむ」→住 のあて込みを挟んでまた漢字部分の「じょうほうかん」をあて込ませるために入力せねばならないのは二度手間で面倒なのですがこれは単語登録作業も兼ねているので読みと表記のデータを完成させるために我慢していただきたいところであります。
その際、「じょうほうかん」のところで閉じるために[通常変換]を押さなければなりませんがこのとき見出しの「じょうほうかん」とリードの「じょうほうかん」の入力が重複しているのを受けて、この部分は漢字変換しておこうと気を利かせてくれるようなふるまいをプログラムしておくことが重要です。
提示漢字が思っているものと違うときは順次連続で[通常変換]を押していけばよいですし、このときのキー動作は「捕捉を閉じる動作」をおこなうのと「リード重複部分の漢字変換のタスク」を同時に兼ねている機能であると理解していただきたいと思います。

「うつてん」については通常の仕方で入力すると「打つ点」が妥当な変換結果だと思いますが、この新変換では「転」だけ漢字にしたいのであってその前にある「うつ」はリードで触れない場合は基本カタカナですからこのままだと「ウツ転」という表記が第一候補に出てしまうと思われます。
「転」についてはリードで「ころぶ」と訓からアクセスした方が最短距離ですし問題はなさそうなのですが「ウツ」とカタカナになってしまうのはちょっとモヤモヤしてしまいます。
この点については解決方法として[通常変換]を押した後に盤面中央にある「かな」キーを押せば「ウツ」の部分だけそっくりそのまま「うつ」に訂正することができます。「転」の部分は漢字のままです。特にカーソル移動で作用範囲を指定するといったこともありません。
これについてはこのブログではお馴染みのカナ変換時の漢字部分無干渉変換の考え方とほぼ同じ仕組みであります。
思い出しのため説明しますと三属性変換で「げーじつてき」を属性ハ(接尾辞つきワード)で変換させるとこれは未知語なため一旦「げーじつ的」と変換されますがこれを「ゲージツ的」と「的」を漢字で残したままそれ以外をカタカナで変換させたいときに接辞の「的」には一切影響をあたえずに[カナ]キーを押すだけで「げーじつ」の部分だけそっくりカナ表記に訂正するという機能のことです。
今回の「うつ転」の場合も「転」がリード入力で漢字に変換されたことを踏まえてその後の[かな]キー操作の際にはこの漢字部分「転」は「不変部分」で「無干渉に作用させるもの」として扱うという意味において、先程の「的」が接尾語として部分Fixオペレーションを済ませていることを酌んだ処理とも全く符合するものであります。
ひと手間掛かりますが、後付けで軌道修正できるので幅広く応用できる操作だと思いますし、何より変換対象範囲の伸ばし・縮め操作が一切不要で流れのままで[かな]キーを一つ押すだけで解決するのがいいところです。

そして「さいきょうぎく」については「さい」は「いろどり」の「彩」をはめて「きょう」は「ひびき」の「響」をあてるところまでは順当ですが、最後の「ぎく」をあてるときに濁らない素の「きく」から「ぎく」の音の見出しへ解釈できるような細かいチューニングが必要になってきます。
これは「ずり」に対して「刷る(刷)」をあてるような動詞連用形などのときにも同様に濁りを酌んで変換させるような配慮が求められるのと同じ図式です。このへんは見出し・リード共に連用形でそろえた方が一見良さそうですがやはり連用形は他の名詞と混同しやすくなってしまうのでリードの方だけはU段で終止感の出ている基本形(終止形)で引っ張っていた方が安心だと思います。

続く「ぜつゆる」もネットスラングではありますが「絶対」が「ぜっ」と発音するにもかかわらず見出しの「ぜつ」にうまくはめ込まれるようにここでも微妙な変換のチューニングが求められるところです。
「許」の部分に関しても通常では「ゆるす」と終止形で出すものではありますが、ここでは「ゆるさない」と否定形で入力してもアリ、なように柔軟に解釈してほしいところです。
ここのところは先程の「濁音化構成音でも原形から解釈する処置」の件とともに「促音化しない原形のままの構成音のときでもうまく当て込む処置」が表記の勘所として注意しこれらには着実に対応していきたいと思います。

最後に「とんくっく」の読み見出しでは「くう」ではなく「たべる」から「食」を出す代表提示の際に、「くう=食う=食べる」と異なる訓の同一性を認識して「く」の部分にあて込むようなインターフェイスはちょっと複雑ながらもぜひ実現してほしいものです。
さきほどの「住まいる情報館」の例の「す」あて込みと考え方は同じですが、異なる訓も乗り越えて解釈させるという点においてこちらはもう一段手間のかかるものとなっておりますが決して無理な注文ではないと思いますのでどうか助力いただきたい次第であります。

これで綺麗にシメたいところだったのですが、ここで「焼肉 ばぁ場」という店名が目に入ってきてしまいました。
これは「ばしょ」で「場」を出せるのは容易に思い至りますが、最初の「ばぁ」をあて込まずにスルーして末尾の「ば」だけを漢字にしたいということでそのとり捌きがいやはやなんともお手上げな状態となってしまいます。
同音が複数ある例では一の太刀、二の太刀で漢字化が一致しない使い分けも確かに存在しそうですし先行要素が非漢字、なおかつ同音の後行要素こちらは漢字に、などということは想定外でしたのでここへ来てから思わぬ弱点を露呈させてしまうという一例になってしまいました。
これについては紙面も足りなくなってきそうですので(というかまだ解決法が思いつかない)、今後の考察でのちのち検討していく事にしたいと思います。


…以上、長々と論じてきましたがこの新変換の名称もまだ決まっておりません。
説明中でチラッと出てはきましたが自分的には「トランス音訓変換」か「パズルのピースをはめる変換」と、ちょっとケッタイな名称を検討しています。
「トランス音訓変換」というのは「さい」を変換するのに「ふたたび」のリードをあてて漢字の「再」を出すといった風に、「さい」「ふたたび」という音・訓両方の決定要因を飲み込んでいるところが音訓横断的で単に音読みの語/訓読みの語だけもってしてを[読み→変換漢字]と単一に紐づけしているのではなくて、
もっと複眼的に「見出しの文字列(ひらがなの読み)」-「漢字構成物の部分部分(漢字:だいたいは音が多い)」-「部分単漢字の代表引き出し(連想リード:音でも訓でも)」
の3つの決定要因、つまり3項参照によって音訓を自在に行き来しながら変換していくプロセスをざっくり言い表す言葉として「トランス音訓変換」と名付けました。
いわば「トランス音訓データのフル活用」を謳ったものであり、従来の単語辞書では読みと単語のその場限りの対応紐づけに留まっているのは実にもったいないのではないか、ひとつの漢字というものが音読みも訓読みも併呑して立体的な複合体になっているのだというありかたを存分に利用しようではないかという野心的な試みでもあります。

もう一つのネーミングは「パズルのピースをはめる変換」、とちょっと比喩的な表現となっておりますがこれ以上ないほど[対象文字列の捕捉動作]から[単漢字それぞれのパーツを代表変換であて込む]プロセスまでが一連のジグソーパズルのようでもあることを如実に表したネーミングはこの他には考えられません。
先程の「トランス音訓変換」では常に音読み訓読みを行き交っているかのようなイメージをあたえますが、実際には音だけ、訓だけで完結する素直(?)な例も十分あり得ますのでこちらのような限定感を与えない実態に沿ったネーミングも捨てがたいところです。
いずれにしてもこのコンセプト自体まだまだ掘り下げが足りないと思っておりますので、今後の議論・考察の過程の中から相応しい名称を決めていければよいかと思います。
肝心の②番の新・ワンタッチ登録キーを具体的にどう機能させて流れの中にどう位置付けていくのかについても少ししか触れていませんでしたので(実は自分自身まだよくわかっていません)こちらもいずれということで継続していきたいと思いますのでどうかお待ちください。

さてこの他にも熟字訓の場合はどうするのか、音訓のほかに簡単な英単語(カタカナで)を漢字に対応させてみるのはどうか、などまだまだ検討事項は沢山ありますのですが今回はここまでにして
今後の内容がひとまとめになる程度まで試行錯誤しつつ、このトピックの追記事がいつになるのかはわかりませんがじっくりと練り込んでいきたいかと思います。
連日の長文記事に付き合っていただき通読胃もたれをおこしてしまった読者の方もいらっしゃるのではないかと心配しておりますが次回はちょっと軽い記事にしたいと思いますのでよろしくお願いいたします。

 

 

[2021.6.3 補足追加]
この記事のキモは入力文の音素情報のみから変換文をひねり出すということではなくて(1対1対応)、
読み情報、音読み可能性、訓読み可能性の3項参照で適切な変換文を生成するということ(いわば3項のすりあわせ)であります。
論点も散漫でちょっと読みづらい長文になってしまいました。

新カテゴリ「[Ø]活用と単漢字変換の打開策」 - P突堤2

の記事のほうがレイター記事になっており、より要領を得た説明になっているかと思いますので
よければそちらのほうをご覧になって下さい。

 


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする