P突堤2

「でにをは」別口入力・三属性の変換による日本語入力 - ペンタクラスタキーボードのコンセプト解説

初めて訪問された方へ

P突堤2へようこそ!
キーボードの配列・機能の説明はこちらです。
お知らせや補足事項なども表示してあります。

チャンク自明化に悩んでいる

2023-09-04 | ジャンル横断的な問題

この記事はとても人様に見せれるようなものではないのですが、自分のとっ散らかった考えを整理して道筋を立てるところまではいかないだろうけれど
材料をとりあえず横並べするだけでもめっけもんくらいの気持ちで書き連ねてみようかと思います。
いわば自分に向けての備忘録です。読み物記事を期待されていた訪問者の方にはすいません。
手数は多く!アウトプットを自分に課していけば何らかの補助線になっていくでしょう!
そんな調子で始めていきたいかと思います。

ペンタクラスタキーボードの作法で一大中心に据えたいとずっと考えているもの、それはテキストに対する適切なアノテーションの実現です。
ルビと音声アノテーションは別物で考えなくてはいけません。
ルビは熟字訓やあて読みのように推測のつかない字面からでもよみを生成する必要があります。
当然、文字一文字区分が正確に読み要素とシーケンシャルに1対1対応するものではありません。
あとは「悪ぃ悪ぃ」わりーわりー、「買うてきて」こうてきて、
のように口語や方言などからくるちょっとした逸脱、これも律儀によみを振ってやらねばデータとして完成しません。
私は最初、名詞チャンクであれば助詞で挟まれていれば「でにをは別口入力」のマーカーがあるので切り分けしやすいだろう、名詞チャンクだけルビ対応にすればいいかな?
なんて軽く考えていたのですが、俯瞰して漏れがないよう場合分けしてみると、「チャンクのクラス分け」という問題が図らずも持ち上がってきました。
未注釈のチャンクにはわかりやすい名詞チャンクだけではなくて、当然叙述部分の活用や派生がややこしそうな述語チャンクにも対応しなければならないですし、
IMEの構文解釈として「副詞ヴァージニティ」という名を冠した叙述の前段にあたる部分も処理面からいって別枠として待遇してやらねばならないものもあります。(マクラチャンク)

あとはチャンク部分として認識できたとしても、文字列削除によって断片化してしまったときに突然素性のわかっていたチャンクがキャンセルされ
一度断片が欠けるとまるっと一から未注釈チャンクへちゃぶ台をひっくり返すごとくの台無し局面を迎えることになってしまいます。
これは悩みます。
なんなら、中途半端な削除をシステム上許容せず、言いさしの部分でさえも
「知ら…」(知らない、の言いさし)
というように補完形を抜かりなくアノテーションしたうえで断片化させる、なんて想像もしたくないような厳密性をユーザーに強いる事さえ視界に入っています。
とはいってもまあ、もとより短縮語や漢語連結の合成語とかでさえろくに対応できる目途も立っていないのですけれどね。
ただできるだけ出所不明のチャンクが無尽蔵にタイプされてしまうことを抑止して、不明にしても何らかの所属復元ヒントくらいは施していこうとシステム的に型にはめていく、
そういったアフォーダンスを促すインターフェースを目指していこうというのは大枠として方向性はもって設計していこうと思っています。
つまり全体としては、すべてのチャンクを自明化していきたい、ということです。
そのために作ったアノテーションタグ(アノタグ)キーもひょっとしたらひとつでは足りなくって、またいろいろと試行錯誤するはめになるかどうかもわかりませんね。
いかんいかん、いたずらに物事を複雑化して考えていくのは良くない。オッカムの剃刀という言葉があるではないか。
もうすこし、与えられた材料のみで足掻いていこう。そしてしばし沈思黙考。

というところで、もうすこしルビについて深掘りしていこうかと思います。

近年では一時よりもルビの振ってある書物が減ってしまった、なんて嘆きも聞かれますがペンタクラスタキーボードは印刷物としての物理閲覧にそれほどこだわっていくということではなくて
Web環境、デスクトップ環境で表示の用が足せればいいという割り切った考えを持っています。
あとは多岐に渡る絵文字の種々のもの…これもかな漢字変換候補提示にリソースを食われてしまうのを嫌ってP陣営の文字コード体系ではサポートしない、ハナからコード体系は別物、
それに絵文字は読み上げの負荷も一段上げてしまうことになるので、文意に重畳的にニュアンスが積みあがったしつこい読み上げや、表記上の装飾的で連続的な羅列も望むところではない
など、目視閲覧ではないデバイス機能的閲覧をトータルで考えて必要とされる要件を再構築していきたいと思っています。
読み手の観点からすると物足りないでしょうが、文字表現そのものの充実よりも、単語単位でのアノテーション情報やセマンティクス情報、翻訳時のノーションなど
文書全体からくる立体的な情報の注釈、とくに検索露出やワード流通経路におけるスパム排除、そして個人情報の適切な管理のもとにおいて情報の信頼性を担保するユーザープロファイルサインの強化
場合によっては個人のIME練度の文書価値への反映や闇雲なトレンド列挙の規制と同時に有意列挙の適切な評価、ときにはペナルティーをも課す文書スコアリング
…などなど単に"ルビ"以外にもキャストしたい情報がてんこ盛りですのでそういったものをルビと並行してダブルトラック/トリプルトラックで走らせる何か良い記法はないのかと考えを巡らせているところであります。

物理書籍でこそ総ルビ化は望まれるところかもしれませんがコンピューターはUIレスポンスというのがあるので
ここは思い切ってポップアップや選択読み上げの地位をもっと上げていって代替的に活用させてみてはいかがでしょうか?
ルビをユニバーサル環境で使えるようにするのは難しい。レイアウトの問題もある。Webページの再現性が根底から崩れてしまう。
という懸念が依然としてあります。
レイアウトには短尺文字列に長尺のルビを振る場合表示領域が納まりきらないという問題や視覚弱者にとって細かすぎる文字の読字困難やそもそもルビと注語部分が接近しすぎていると一体のものに見えてしまうという認知構造的問題もあります。
ルビの運用は個パッケージなら完結できると思いますが汎場面的にあまねくルビ環境が整うというのはやはり困難で
ここはデバイス単体での使用場面というのに限定して表示の用を追求していくというのが当ブログの方向性の見解であります。
ただ使用場面においては教育・プレゼンなどの場面において1対Nでそれぞれが端末を手にしてタッチナビゲーションやマウスナビゲーションなどの操作によっても個々の環境でルビ確認やアノテーションサポートをめいめいのタイミングで享受できるような統一性というのも考慮に入れていかなくてはならないと思っています。

いずれにしましても、ただのプレーンテキストにできることには限界があり、ルビやアノテを織り込むべく風通し良くマークアップされた体裁でないとこれらのインターフェースはとても実現できそうにありません。
どのような記法をとるのか仔細は全く見えてはおりませんが、ペンタクラスタキーボードの作法においてはいっそのこと「プレーンテキスト」というのを根絶して
テキストエディタ上はもちろんのこと、検索フォームの窓の中に放り込む文字列から、スプレッドシートのマスに入れる小項目でさえもリッチテキスト化して
出来上がった文書にも恒久的な評価識別子を埋め込む…などなど独自の立ち位置からでしかできない運用を頭の中に描いています。

Alt属性は画像に注釈(代替テキスト)を入れることのできる機能ですが、Title属性で画像のほかにもテキスト部分にポップアップをあてることができるやつ、あれはどうなんでしょう。
やれルビだ、音声アノテーションだ、検索識別子だユーザーIME練度だ、
…などを盛り込んでいくとこのあたりを風通し良くしないと不具合必至ですねぇ。
テキストファイルを拡張していって”コンテナ”と呼ばれる一単位にまであまねくリッチテキスト化していこうという私の目論見は現時点では全く見通しが立たないですね。
あとはコピペモビリティの問題もありますし。

ルビにもいろいろあって、P作法で実現するとしたらまあポップアップで出すか読み上げ時専用のミニウインドウによみを書いておくかやり方はいろいろあると思いますが、
特殊パターンとして
・ひらがなベースに漢字ルビをつける(逆パターンルビ)
・漢字ベースに英語ルビをつける
・韓国朝鮮語の漢字語に全部漢字のアノテーションをつける
などがあると思います。

このときはユニバーサル環境でこんな複雑な記法を布く、日本語でできるのだから多言語間のアノテーション記法の整合性も破綻なく布けるではないか、といった幻想は早々に捨てるべきと考えます。
言語-言語 間のトランスもない ドメスティック書式に異言語は埋め込みとして入るだけ あくまで日本語環境の中でだけ実現できていればいいです。
韓国朝鮮語の漢字語に全部漢字のアノテーションを付けてくれるツール は日本オリエンテッドとして日本語の枠内でやってしまう。
もちろん韓国語オリエンテッドでやるのもいい ただドメスティックはそれぞれのお国事情に任せるということ 標準化が至上ではない。ということです。


ルビ以外で外せない単語の接続情報に関する記法もありました。
高次 N-gram を用いた形態素解析の研究.pdf (村上仁一 NTT情報通信研究所)
という文書に興味深い区切りの分け方が載っていたのでメモしておきます。


│:接辞境界       くるまやラーメン くるま│や+ラーメン
+:単語境界       あさひだるま  あさひ+だるま
%:アクセント句境界    お好み焼童子 お好み焼%童子

ペンタクラスタキーボードの作法には三属性変換で接辞に関するマーキングも埋め込まれていますし、漢語複合語には独立部分と依存部分の見極めも難しいです。
アクセント句は読み上げアノテーションのときに境界分解能があれば助けになります。
この分類方式でそのままペンタクラスタキーボードの作法に組み込めるというわけにはいかなそうですがエッセンシャルな情報が含まれておりとても参考になりました。


そして最後にまたまたキーボード盤面をUPしていきたいかと思います。



ペンタ トルフィンs

(画像をクリックすると別タブが開いて拡大します)
【ペンタクラスタキーボード 図案】

今度のヤツはほぼ最終形と見込まれるものであり、読み上げの重要性に鑑みて盤面中央部に
「アノテーションキャンセル」
というキーをしつらえてあります。アノテーション作法のUIを厚くさせるためにこちらが主題で第一義的な名称です。
しかしアノテーション操作も毎回というほどではないし平時に遊ばせておくのももったいないので
こちらのキーを
「読み上げ開始」
キーとして兼用で使っていきたいかと思います。
キー名称としては、あくまでも「アノテーションキャンセル」ですのでご留意してくだされば幸いです。

長々となってしまいましたがこのへんにしましょう。


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする