P突堤2

「でにをは」別口入力・三属性の変換による日本語入力 - ペンタクラスタキーボードのコンセプト解説

助詞省略のtwitter構文と副詞ヴァージニティ

2021-07-04 | 文解析は副詞が鍵

「始めて」と「初めて」とが混線し、不適材不適所となっているトホホな誤変換をよく見かけます。
よくよく思案を巡らせてみると、「始めて」は
「--を始めて」(ヲ格をとる)
「うっせえわが流れ始めて」(複合動詞)
「会議始めてしまうよ・みるよ・おくよ」(モダリティ/アスペクト/補助動詞/助動詞相当フレーズの末尾への付加)
「アルバイト始めてから」(文法機能語フレーズの末尾への付加)
等々接続配置や格のとり方の特徴がみられることがわかりますし

「初めて」については
「初めてお目にかかります」(文頭・副詞用法)
「モツ鍋なんて初めてだ」(叙述用法)
「声出して笑ったの初めてかもしれない」(叙述用法かつ定型的フレーズの付加)
のような特徴がみられ両者には瞭然たる違いが浮き彫りになってきており対照的です。
このあたりの分析を適切におこなえればかな漢字変換のIMEにも着手不能と言えるほどの困難でもなさそうなのですが、実際のところこれらの分解能不備で生じる誤変換は未だに解決の目途がみられる気配はなさそうです。

これらの例と同一線上には
「機能LINEで会話してたんだけど」(○副詞昨日)
「かけそばを一杯食べた」(☆副詞いっぱいとの混線)
「余り計算したくない」(☆副詞あまりとの混線)
3例の文例なども示唆に富む事例と言っていいでしょう。いずれも悩ましい問題であります。

これらに対して抜本的に解決できるというほどのものではないのですが、ペンタクラスタキーボードの基本コンセプトを応用して何か手立てはないものかと案じたところわりと実践向き?そうなアイデアをひねくり出したので今回はその骨子をお伝えしたいかと思います。
とは言っても"一考を案じる"…というような懸案対峙的に向き合って考えたものではなくて通常変換/三属性変換の挙動を作り込んでいっているうちに雑メモで副詞誤変換のいなし方を諸所に残しておいていて、それをラフにまとめておぼろげながらの対処見解をパッチワーク的につなぎ結んだモノであります。
まだ生煮えのアイデアではありますが導入のためにわかりやすそうなフレーズであらわしてみますと、少々独特の造語ではありますが

副詞ヴァージニティ

という用語を提案してみました。
字面から察するに想像が尽きぬところなのですが、「始めて」「機能」「帰って」「ナンだと」などが文頭にくるとピーピー警報が鳴って、全力で座りの悪さをアピールする、
いやそれだけでは生ぬるくてインターフェース、構文解析、いやいやもっと前の入力の段からして構造的にそのリスクを回避しようではないか、という試みであります。
噛み砕いて言うと、特定のターゲットのワード(よみ文字列)においては、文頭で配置されているか否かをいささか神経質に判定材料にして
そこにヴァージニティ(童貞性)はあるのか?副詞の活躍場所を奪わないで!
という反俗精神というものを構文判定のマインドに持ち込もうというものであります。
(なんだかワケのわからないことをぬかしおるな…というのを我慢してもう少しお付き合いください(^^;)

そもそもの話なのですがペンタクラスタキーボードの変換体系は上位にまず通常変換があってそれではカバーしきれない特定フォーカスの変換候補をその下位にある三属性変換が各々受け持っています。
通常変換では解釈バイアスがかかっていており、モダリティやアスペクト、受身/可能/尊敬/自発、談話機能などのニュアンスが味付けされているものをひとつのゲシュタルトとみなしてデフォルトではより複雑なほうの解釈を好むというものであります。
わかりやすく例で列挙してみると、(前者は通常変換/後者は三属性ロ万)

後で刺そうとして/後で誘うとして
愛でたい/目出度い
日曜日来るって/日曜日狂って
おいてかれるよ/老いて枯れるよ
撒けそう/負けそう
漏らせる/盛らせる
敬意を占めそう/敬意を示そう
看取れたんだ/見蕩れたんだ

…とこんな調子でかえって通常変換で適切でないフレーズのほうを優先してしまうケースもあり痛し痒しというところではあるのですが
少なくとも変換候補オーダーが出るまでユーザーに心づもりをさせずに選択候補が出たとこ勝負でドーン、という事態になってしまうのではなく、常に非対称に格納していますので
ユーザーにとっては挙動の予測がしやすく、もし得心の行かない候補が出てしまっても通常変換→三属性変換と遷移することによって目的の変換候補を出すことができますし忌避行動は用例学習されるので二回目以降の変換では通常変換でも学習結果を反映して通常変換バイアスにこだわらない柔軟な返しを用意するものであります。
もちろん初回の変換でも当該箇所の変換をいきなり三属性変換に個別指定してやればすんなりニュアンスを酌んだ変換をしてくれるところも同様です。

副詞ヴァージニティはこうしたメイン課題をいろいろ検討していくうちに副産物として生まれたアイデアの一つです。
副詞ヴァージニティについては先程の例の「初めて」「昨日」「あまり」のようなひとチャンク固定されたよみ解釈のものもありますが

「去年に比べた海水順だ」(○去年に比べ高い水準だ)

のようにぎなた読みがらみの副詞句弁別にも援用できるものであります。こちらも通常変換バイアスはここでも有効に影響範囲でありたいところです。
記事冒頭の多面的な格関係・用法からの構文分析がもし困難であるというのなら、副詞ヴァージニティのように形態的アプローチで簡易的に決めてしまうのもお手軽でいいのかもしれません。
ただしちょっとひねりを加えてあるのは通常変換バイアスの決定において単にテキストを流し込んで判定するのではなく、ユーザーに通常変換なのか三属性変換なのかを指定させることができ双方向的に関与できる、というのがミソであります。
人間と機械が協調動作することで所望の目的を達成するシステム、まさに人間=機械系の特性を貪欲に取り込んだ設計であると自負しています。


さて通常変換挙動の副産物としてほかにもまだアイデアはあるのですがそれらの中でもなかなかに難題のものが当ブログでアジェンダ名詞と名付けている助詞省略時の主語・状況語のトピックであります。
元々副詞には時の副詞として「昨日」「来年」「先日」「2時間」なども名詞範疇でありながら副詞的色彩を帯びているものがざらにありますし、
「ごはんを食べたとき」「思いの外」「ツツジの花が数輪」のように体言結びの句を提題的に使っているものもあります。
最近の話題としましては、「twitter構文、便利だからつい多用しがち」などにみられるネット定型文などもあり助詞省略の体言提題はここでも根強い剛健さを誇っております。
実はこの構文、冒頭に話題を設定してあとは自由に見解を述べられるので汎用性が高くフォーカスを絞れるので短文必須のtwitterにはうってつけのロジカルな語法なのではないかと認識を新たにするものであります。
よく使われるイディオムとしては、
「○○、△△過ぎるな」
「○○、△△しがち」
「○○、△△みたいなとこある」
「○○、△△するもバレる」
など組み合わせも展開も縦横無尽であります。
今のところはかろうじて読点で区切って書かれているのでぎなた誤読のリスクはあまり無いようなのですが今後は読点すら省略されてしまう表記が主流になってしまいやしないか行く末が心配でなりません。
なにしろ読点を省いてしまうと分かち書きのない日本語では単語の境界が溶けあってしまい構文解析の難易度は一気に高くなってしまうのでそれくらい日本語入力にとっての勘所だということであるのです。
苦し紛れでひねりだしたアジェンダ名詞でありますが拙案の私が言うまでもなく、同様の概念はすでに学術界では「はだか格」「単説題目語」「無助詞」「はだしの名詞」「主語に『は』も『が』も使えない文」…等々などで掘り下げられております。
特に無助詞については単に助詞を省いただけというものではなく、助詞標識がゼロであることをもってして他の助詞付きの提題とは一線を画したそれ固有の意味用法をもつのだと位置づけるとらえ方もあるということを知ったときには新鮮な驚きを感じたものであります。
私は言語学・文法知識には要領を得ない半可通ではありますがペンタクラスタキーボードの入力機構からみた見地で「変換機構の都合を斟酌した文法」とでもいうべきアレンジを加えることによる再定義をこれらの術語から着想を得て提案したものであります。

ここまで副詞ヴァージニティとアジェンダ名詞について考察してきましたが私の書き方が悪かったせいでこの両者にいったい何の相関があるの?と疑問に思われてしまうのも無理もない話でありまして、
これらのトピックを無理に統一的に説明しようとして同じまな板の上にのせてしまうのにはいささか野放図にすぎることは重々承知しておるところであります。
そしてそれが実際、なんだか副詞なのかアジェンダ名詞なのか、あるいは接続詞的成分でさえもその認識領域・境界意識というものがわからなくなり私自身埒のない混濁に陥っているのをひしひしと自覚できます。
そこへきて通常変換のなんやかんやゲシュタルトであるとか「ところだ」「走っていく」「てほしい」「万有引力でもって」「ドコモだけ」「象みたい」などのように通常変換バイアスの影響下として
形式名詞・補助動詞・テ形副詞句・補助形容詞・文法機能語の解釈を優先する指向性をもつ振る舞いなども併せて考えなくてはなりませんし、なんだか抽象を大きく膨らませて深追いしすぎてしまったせいで手に負えないシロモノになってしまったというのも事実ではあります。
しかし少なくともこれら列挙したものについてはいずれも何らかの"ヴァージニティ"が存在し得る、または初出解釈時にはこれらの峻別意識を尖らせた方が便利で有益であるというのは明白であります。(virginには「未使用の」という意味もあります)
ただそれよりもむしろアジェンダ名詞のほうがヴァージニティという軸で説明するのが困難だということにやがて気が付くという一波乱が起きてしまいました。

これは問題です。

「収量とれなかった」というアジェンダ名詞文があります。この語自体はあまり頻用することの無いワードなのですが助詞抜きで使おうとすると「終了とれなかった」とトンチキな誤変換を発生させる不遇ワードであります。
似たような例では「用事済みました」が「幼児住みました」になってしまう例、「歯医者変えたんだ」が「敗者買えたんだ」になってしまうというのも脱力誤変換を誘発させるセンシティブな例であります。
どちらかといえば評価や報告に関する諸元説明としての用法が多くて、悪い方の誤変換候補に関しては抽象物よりも具体物や日常時事問題要素をはらんだいわゆるパワーワードの癖の強さが鼻につく傾向があるかと思います。
なお、ここでは「横アリ」や「いつメン」のような短縮語は語構成上の整合性やインターフェース混線(単語登録や未知語処理)の兼ね合いから議論の俎上からはあえて外しておく事にさせていただきます。(もちろんアジェンダ機能をもつものもたくさんありますが)

こういったタイプの語に関してはその後の展開性に着目して「ころがし値」とでもいうようなポテンシャル記述でパラメータを設定するほうがむしろ理に適っているかもしれません。
ころがし値は体言にしか設定できない類のものでありそれと同時に助詞抜きフレーズとの親和性の高さという語彙語用的視点も考慮、また有助詞であることを典型から外して考える疎外律のイディオム感も持ち合わせています。
具体的なところはよく分かりませんが(無助詞)ころがし値の高そうな文例としましては、

この電球φ、切れてるよ(姫野伴子(1999))

に出てくる「この電球」などがよくパラメータ規範に沿っている語彙特性をもっている言葉だと思います。助詞付きではかえって違和感がありますね。
このほかにも関西弁に見られる一文字語に小ぁ行の音引きを付加した

気ィ 茶ァ 手ェ 胃ィ 蚊ァ 身ィ 戸ォ 酢ゥ 毛ェ

などの語もころがし値の高そうなイディオム感をもっている単語であるでしょう。こちらは高々有限個であるので思い切って力業で網羅しておくのもよさそうです。
ころがし値はこのように一度アジェンダ名詞として結節したうえで、後続に展開的な叙述を連鎖できるかという観点のもとで定義される値であります。
ちょっと注意したいのは「クマ改善」や「クラス練習」のように一見サ変動詞に係ったアジェンダ導入にみえそうな(連用素材っぽい)場合もよく見て構造を解きほぐしてみると
確かに「クマ⇔熊」の対立や「クラス⇔暮らす」の対立を使い分けられそうでそこにヴァージニティを見出す価値はありそうなのですが
これはどう見ても連用素材句という一フレーズととらえるには緊密すぎますしやはりここは複合語のさばきの範疇で処理していった方が適切であるのかもしれません。
やはりアジェンダ名詞のあとの叙述フレーズが単文的に述語ひとつで結んであるのもいいですが複文的にひとチャンクになった長い叙述:引用節や名詞句の組み込みであるとか格関係の具陳してある重複文叙述が連なっている文章のほうが前段の連用導入が際立ってヴァージニティーの存在意義を手応えることができるのでいいかと思います。
いずれにしましても副詞ヴァージニティところがし値とは密接に関連しており、

統語全体からみた文頭の特徴検出が副詞ヴァージニティ、
個別の語頭からみた統語全体への収束見込みを推し量るのがころがし値

という実は同じ根のある文法的性質のものを2つの対岸から俯瞰したものがこれらの術語となって顕れたものであるということにようやく到達した結論なのでありました。
正確には、文頭副詞というよりも叙述部頭、規定句頭と言い直した方が適切であるかと思いますが、大切なのは検出の入りばなというよりもヴァージニティーの寄り代となる叙述素材がまさにあるかどうかということを問う観点であるのではないでしょうか。
ここで今一度、単語とはなにか、文とはなにかということについて根源的に立ち返って「変換機構の都合を斟酌した文法」を構築していくことが肝要なのではないか、ということです。
文節で区切るIME文法は一度解体して、「各種ヴァージニティ」の「検出入り/検出解き(フラグ区切り)」にのみ特化して分解能を高める方策が求められているかと思います。

 


この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« 新カテゴリ発進・形容詞研究 | トップ | マリトッツォ、姜葱醤、産直... »
最新の画像もっと見る

文解析は副詞が鍵」カテゴリの最新記事