P突堤2

「でにをは」別口入力・三属性の変換による日本語入力 - ペンタクラスタキーボードのコンセプト解説

同一文面で解釈が割れるフレーズ

2023-08-21 | ジャンル横断的な問題



ペンタクラスタキーボードでは単語をチャンクと捉え、字面だけのテキスト情報で済ませてしまうのを良しとせず、
さまざまな注釈をほどこしてたとえばルビ情報であるとか音声読み上げであるとか同字異訓の読み分け(つらいとからいが区別できる)、
アルファベット英文の全文ではないとしてもプロダクトやコンテンツタイトルのフレーズやASAPなどの定型句を「あずすーんあずぱっしぶる」と素朴に日本語発音で読ませたいような音声アノテーションが実現できればいいな
…などとあれこれ妄想しています。
その中で実現性を模索しているインターフェースが「文化変換」と「音声による即づけアノテーション」「タッチ液晶のサジェスト候補」「アノカッコ編集による自力付与」を主に練っているところであります。
見慣れない用語を連発してちょっと引かれてしまうのも無理ないですが、無理を承知でひとつひとつ解きほぐしていきたいかと思います。

まず文化変換なんですがこのキーは盤面上部に備え付けられてあって
通常の変換では出てこない固有名詞(地名や商品名をはじめありとあらゆる標準収録されづらい語句)をカバーするキーです。
このキーは疑似的な予測変換も兼ねていて通常、ショートレンジで数文字入力しても標準タッチ液晶には予測候補は出てこないのですけれど
このキーで「予測呼び出し」をリクエストすれば長尺で入力が疲れる文字列の補完や正式名称などをサジェストしてくれます。プライバシーに触れないものにおいてはクラウドから変換候補を引っ張ってきてくれることを念頭に置いています。
登録辞書にない時事ワードや注目ワードなどを補完してくれることを期待するほか、一般語彙と固有語彙が兼用化している語句を明確に住み分けできるようにする仕組みとしての効果を狙う、
あるいは通常入力に質の悪い短尺の固有名詞が誘発発動してしまってノイズになることを避ける、などの利便性を向上させるものです。

たとえば通常の入力で「遠藤」とタイプしてもデータとしては字面だけでマッチしてしまい一般的な名字から相撲力士の遠藤まで全部ごちゃまぜでサーチを拾うことになってしまいます。これでは効率が悪いです。
なので文化変換で出される候補は自動付加的に
「遠藤(力士)」と提示され
と範疇情報を加えたアノテーション込みのデータで格納していきます。
通常入力で得られた名字の遠藤さんについては付加なしの"無標"でいくのか、「遠藤(人名(姓))」とするのかの判断は今は保留することとします。
この要領でいけば
「Tile(探しものトラッカー(アプリ))」などのようにアルファベット由来のものであっても弁別可能性がありますし、このTile(タイル)というような一般名詞が固有名詞化している立ち位置のものを慎重に区別することができます。
あとさらには
「アイドル(推しの子OP)」みたいに
埋もれやすい一般名詞との混線をアノテーションすることで話題を絞ることができユーザーは目的の範疇にたどり着きやすくなります。
問題はYOASOBIのアイドルなのか推しの子のアイドルなのか範疇代表性のチョイスが整合性を保ったままルールを確立するのが難しいということであります。
この問題については今後の課題とします。



次に「音声による即づけアノテーション」です。
通常、ユーザーからの入力は辞書内にある単語であるかせめて文化変換でクラウドにあるものを流し込めればシステム上は都合がいいです。(アノテーション管理からいっても)
しかしオリジナルな表現でどの辞書ソースにも該当しない破格の単語もあることでしょう。あるいは短縮語や英文の頭字語や漢字のあて字などもあるかと思います。
そんなときいささかウザイのを承知で提案しますが、
「入力中に未知語を検知すると自動でよみや抑揚や略さないときのお題目は何か、を説明を要求しユーザーに音声でデータ提供を求める」即時機能
というのを走らせる、というのはどうでしょうか。もちろんユーザーはマイクやインカム常時装備、というのを前提にしていますけれど。
未知語の正式な読みが取得できるのもうれしいですし、補足情報も得られるし、初回だけ登録すればあとは学習してくれます。
読み上げ情報やルビ情報にも大いに寄与します。
抑揚の取得が特筆すべきところで多少のノイズや地方差はあるかとは思いますが全国のユーザーから集められた音声情報が解析・集積される過程において
全てのデータを集積したうえで"平均フォニックス"を生成して
生データとしてではなく、記号的にフォニックスを標準化してデータとしてイデアル(理想的)に扱いやすくコンパクト化して格納できる、これが実現できれば
アニメ「リコリス・リコイル」キャラの千束(CV;安済知佳さん)のアドリブボイス
「もしもしもしもしー」のセリフ
も標準化された音声データとして整形され、あの微妙な抑揚も読み上げソフトでバッチリ再現される世界がやってくるかもしれません。
問題は編集上、字の一部を削除してしまったときの残骸の扱いに困るということとコピペモビリティの保証が難しいかもしれない、複合語などの解釈も盛り込むときりがないのではないか
など問題は山積みでありますが頭の痛いところです。
さらにユーザーにはちょっと厳しいですが、ユーザーが音声アノテーションに協力してくれなかったときは、その単語は未達未知語とみなされその語句を含む文書に低いスコアが与えられる
たとえば検索エンジン上での順位が下がる、タグ検索で引っかからない、読み上げのとき読んでもらえない、単語登録に何らかの制限がかかる…などなど
ついでに言えばP陣営のエコシステムではユーザーの力量を評価し個人のIME練度をサーチャビリティに反映させる方策を探っているのでその面から言っても不利益をこうむります。
IME練度については興味深そうな話題がいろいろ出てきそうですがこの記事においては軽く触れておくだけにとどめておきます。



つづけてこの記事タイトルでも本題の内容を含む「タッチ液晶のサジェスト候補」であります。
この機能はメイン画面でのかな漢字変換ナビゲーションでカバーしきれない変換の勘所を、手元のタッチ液晶で適宜、あると助かりそうな候補を表示して
表記のこだわりをワンタッチで選択できるなどであったり、あえての忌避候補をここで捕縛して明示的に地雷候補を踏まないように通常変換での干渉ルートをあらかじめ断つというギミックも兼ねています。
その中でも日本語の枠内ではどうしても区別できない、文法構造の盲点とでもいうような「1つの文で2通りの意味に解釈できるような文」
についてタッチ液晶でなんとか手当てをすることができないか、三属性変換や通常変換の良さを毀損せずに独自の抜け道はないかと模索しているところでもあります。

ここで一例をあげてみると
・私の部署はまれにログインする人をピックアップしていた。
という文には
(私の部署がまれにピックアップする)のか
(「まれにログインする人」を対象にしている)のか
副詞のかかりで解釈が割れてしまう、ケッタイな文であります。
こういったものをタッチ液晶の提示候補で、「まれにログインする人」を入力完遂した時点で表示画面のすだれ部分に載せてあげればユーザーは念押しでそれをタッチして
「まれにログインする人」を規定チャンクとしてひとかたまりで認識することができ、
逆に特にタッチ選択をせず通常変換の解釈に委ねるのだとすれば、通常変換には「副詞ヴァージニティー」の検知を優先させる「通常変換バイアス」
…というメカニズムがはたらいているので「まれに」は直前の「私の部署」を始動因とするなにがしかの用言・叙述が連なる、と解釈するのです。
とまあ係り受けの文構造はこれでいうよりもっと複雑で構造化も難しい感触がぞわぞわするので、にわか仕込みの学問でこれ以上あれこれ言及するのは自重しておきます。

ただ理屈はどうあれ、「1つの文で2通りの意味に解釈できるような文」は素材としてとても興味深いところですので
せっかく集めた収集例を死蔵させておくのはもったいないので画像・テキストと両方用意しましたのでよかったら見ていってください。
リンク/引用ツイートも大歓迎です。
以下にあげておきます↓

【同一文面で解釈が割れるフレーズ】

・ずたずたに引き裂いてくれる(やりもらい表現/古風な煽り)
・これ、おいしいですわ(お嬢様/関西弁)
・ついていけるかな~(挑発/不安)
・人の嫌がることをします(悪ふざけ/率先垂範)
・やらなくてよかった(なでおろし/後悔)
・いただけない(ネガティブ評価/固辞)
・すぐれませんか(劣位確認/体調が悪い)
・持ってるね(所有保持/強運)
・どうしてしまわれたのでしょう(収納への疑義/尊敬)
・絶対揉めるぞ(トラブル/おっぱい)
・嫌らしい(伝聞/厭らしいの変種)
・少し黙ってようか(投げかけ/自己方針が揺らぐ)
・二次創作になります(バイト敬語/変化・移行)
・標準時(タイムゾーン/標準状態のときに)
・シャボン玉とんだ 屋根までとんだ(着点/累加)

こういったものをユーザーが選択指定できることはテキスト文意の解析や翻訳に大いに役立つと思います。
タッチ液晶の表示面積が限られてくるので領域資源をいかに確保できるかがカギにはなってくるかとも思いますが
あるいは「音声による即づけアノテーション」と同じような発想で選択を促すインターフェースを音声で応答するのもいいかもしれません。


さて最後になりますが「アノカッコ編集による自力付与」になります。
これはペンタクラスタキーボード独自の括弧記号でアノテーション・括弧「アノカッコ」と呼びます。

の画像で表わされます。
これらは前3者の場合のように作業の流れで成り行き的に出てくるタイプのインターフェースとは違い
ユーザーが意識的にテキスト中に付加して明示的にタイピングしていくものであります。
今までの例では未知語であっても予め音声アノテーション促しが起動したり文化変換ならクラウドから探索できたり、察知のしようもあったのですが
あいまい用例は前もって察知できるほど綿密なものでもないし、用例構造から解析したうえで推定してサジェスト提案まで首尾よくもっていけるかどうかもわかりません。
そこでそういった手がかりのない状態からでも注釈をほどこせるように自力で付与するということであります。
文化変換のように範疇という切り口もあるかもしれませんし、あいまい用例のように双方提示という見せ方でアノカッコを使うのもあるかもしれません。
あるいは クール(様態)/(期間) といったようにテキスト生成時は面倒で付与できないでいたとしても
検索やQ&Aなどのクエリのときにはきちっとニュアンス区別したい…といったような限定的な使い方や
イキガイ(カナ表記) のようにカナ表記であることをことさらに注記したいといった言外のニュアンスや
米市場(アメリカ/お米) のようにルビや読み上げが抜けても手がかりを残しおきたい
(ソクリーン/ソックリーヌ/ソクリーヌ/ソキュリーン:表記ゆれ) のように何個も表記ゆれがある場合善意でMECEしてあげるノートとしての活用

など、アノカッコを挟んだ記法としてはさまざま切り口があるかと思います。(記法の詳細についてはまだ手付かずです)
なお、この括弧についてはプログラミング言語であるとか創作物や定義表現などで新しい用法として使っていこう!という向きもあるかと思いますが
この記号はPエコシステムのウェブ言語資源の活用(検索、ネットコミュニケーション、IME練度のスコア、話題叢データベース)
に限ったものとして使用していくことを推奨したいです。
(使ってもいいのですが本来の使用目的が侵食されて不自由になってしまうリスクを恐れている)
なので差し出がましいのですがたとえ便利であったとしてもそこはそれで、別のプラットフォーム、別の記号体系でやってもらえればありがたいです。

◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆


さて、長くなってしまいましたが
総じていえばアノテーション付与は人類史上の文字表現の進化のロードマップをなぞるものであります。
はじめに話し言葉があって
やがて書き言葉が生まれて
それがデジタルになってリンク参照や音声読み上げが利便性を豊かにして

それを進化させてもっと読み手や伝達経路を考慮して親切なガイドをつけてあげる
…こういったいとなみを

「アヤアむ」
という動詞であらわしていきたいと思います。

ペンタクラスタキーボードのインターフェースは「アヤアむ」ことを最優先に据えた操作体系・物理配置にしていきたいと思いますので
今後もどうぞご期待ください。


この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« キラキラはどこにある?現代... | トップ | チャンク自明化に悩んでいる »
最新の画像もっと見る

ジャンル横断的な問題」カテゴリの最新記事