未知語用言全般、別口入力での様々な派生があることについては①番目の記事でざっとは触れていきましたが、
今ここで一捻り「ビンジする」「ビンジる」「ビンジだ」「ビンジです」「ビンジな」「ビンジである」「ビンジになる」「ビンジとなる」等々
例として「ビンジ」(=ドラマなどを一気見する事)という未知語があったとしてこれを無理やりいろんなバリエーションでやってみました。
ビンジという語彙は置いておいて語尾機能派生的な受け皿として別口入力のマーキングは各種の手段が多様にあることを先の記事で申し上げたところです。
このあたりは過去記事
るてしでsでしてる:基本動詞のエッセンスは大体揃った - P突堤2
あたりでも背景も含めて概観しており、またあわせてテ形の助詞の「ビンジて」などといったケースもあるかどうかはわかりませんがカタチとしては対応できるということを申しておきます。
ただし[○R][×r]のル形動詞別口入力はググる、みたいに「カナ語幹+る」の表記にしたい新語造語類のときに特にこれを使うということで必ずしもレギュラーのものではなく渡る・起こる、みたいに通常動詞の場合はべたかな入力でマーキングを伴わずに入力していきます。(してもいいのですがマーキングするとワタる・オコるみたいに語幹カナのほうが候補優先されます)
同様にテ形助詞[て]の別口入力でも「カナ語幹+て」あるいは「カナ語幹+って」の表記にしたい新語造語のときに厳にマーキングを必要としますがこれも通常動詞のときには不要です。
しかしながらここが躓きやすいところなのですが主にサ変動詞まわりで使用する[便利キー:し]のときだけはそのような使い分けはなく連用中止形「し」の場合だけにとどまらす「[し]-ない」「[し]-よう」「[し]-ます」「[し]-た」「[し]-たい」「[し]-ろ」「[し]-なさい」などの「し」の絡む活用形一般とあとは接続助詞としての「し」(分かってても言わないし、のし)、なども含めて
操作が煩雑ではありますがカナ語幹のあるなしに関わらず義務的にマーキングを要求していきますのでどうかご理解いただきたいと思います。
それというのも「し」はとりわけ誤変換の誘因となる音素ですから[便利キー:し]として文法上の素性がわかるチャンスを活用しない手はないためべたかなの「し」の場合と区別をするという意味においてもどうしても必要になってくるのです。
一応「しない」「した」「したい」などの各ケースをクローズアップしてみると「し内容」「し他方」「し対応」などのくだりでの判別困難性も浮上してくるのでこちらに関しては精査が求められるのでまだまだ吟味が必要になってくるところではあります。
用言全般については一通り総ざらえができましたがこれではまだ完全ではなくそれに続く問題として大きなものにくだけた口語表現の場合と各種方言、それに古語・古典表現が残っています。
口語表現であると本来のレギュラーの複合助詞「では」が「じゃ」になったりテ形の入力でも「ては」が「ちゃ」になったり「てしまった」が「ちゃった」になったりとマーキングが挟める機会を失ってべたかなの字面の文字列から助詞部分を補完して組み立てをしていかなくてはなりません。
未知語であっても単に名詞チャンク部分だけであるならまだ打つ手もありそうなのですが、別口助詞入力をあまねく整備したのがかえってネックになってこういった文法上の骨組みを担う機能語たちもが置き換えのできないべた字面になってしまうと今まで当たり前のようにできていたチャンク解析のプロセスがにわかに不透明になってしまい大変に具合が悪いです。
愚直に各変化派生をしらみつぶしに網羅していくのも悪くないですがまず見落としてはならないのはカタチは違うものの同じ文法機能のパーツが、かたや標準別口マーキングできる種のものと別口伴わずべた字面で表すしかないものとで扱いが分断されてしまっていてこれが統一的な構文解析に要らぬ混乱を招いてしまうリスクをはらんでいるということです。
助詞に限らず「まだやる気出ん」「あざーっす」「うわこれ古っ」これらは短縮表現にからむ用言変化ではありますが例えば「あざーっす」を個別に単語登録しておけばいいという問題ではなくて「ナイ形の縮約」「敬語の口語縮約」「形容詞語尾の促音縮約」などの文法システム的に弾力的に対応できるかどうかの裾野の広い問題なのです。
こうした口語表現の扱いに別口入力のシステム側からできる手立ては今のところありません。
なのでべたかなでチャンク癒着した文字列の中から名詞チャンクと収束・用言チャンクをうまく分解していくことが求められます。それも別口入力を前提とした解析システムの枠組みの中で副作用を起こさないようにハイブリッドに処理していかなければなりません。
今のところ「は・が・を・に・と・の・も・へ・や・な」等は口語でも有効に別口機能はしそうですが、口語は何より助詞抜きであるとか「気ぃ抜くなよ」みたいに<助詞抜き×小書き『ぁ』行音引き>のミックスがあったりするので難易度は一段も二段も高くなっていきます。
方言のバリエーションに関しても同様の困難性が立ちはだかります。○○地方方言・話しことば表現モードみたいに細分化したモード切り替えをおこなったりできるIMEも中にはありますができれば標準状態のままで特に切り替えを意識することなく、まあ細かいところまでは無理でしょうけれど目につく頻出表現のところだけで妥協して限定的にでもおこなえれば多くを望まず御の字であると考えます。
都合が良すぎる楽観性かもしれませんができないところは素直に認めて当該部分の変換では連文節変換をしないで細切れに切ってべたかなでやっていくであるとか漢字部分の送りキワの微修正に「近視眼的粒度」を活用して細々編集していくであるとかの代替策で乗り切っていくしかないでしょうね。
なかなか要領を得ない見解しか出せなくて頼りないところではあるのですが別口入力の助詞の区切りが方言込みでも活きて稼働できているのであればそこをテコにしてオールべたかな文ノーヒントよりかはいくらかマシになっていることを期待するのみであります。
古典古語のほうも有効な対策を見いだせておりませんが厄介なことに古典表現における助詞と現代文における助詞が共通のものであったとしてもその用法には微妙な違いのあるケースがあり、
例えば同じ「の」でも同格「いと清げなる僧の、黄なる地の袈裟着たるが来て…」であるとか「が」の連体修飾用法「これひとつやは君が憂きふし」などがあり従来の別口入力「の」「が」をはじめとしてその他混線してきそうな要因が多くありそれがもたらす副作用は未知数でありますのでなおさらこの問題は根深いと言えるでしょう。
さらに言えば「だに」「もがな」のように一見すると「だ+に」「も+が+な」みたいに複合助詞入力と思わされる要素もありますのでこちらにも注意が必要であります。これらはひとかたまりとしてべたの文字列として処理していきます。
総じて言えば古典表現には方言などとはまた違って、標準の文解釈時に現代文の読みと古典文の読みとがツートラックで解析を同居させにくい事情もあるのでどちらかをとらねばならないと選択を迫られるのでしたらこれは現代文の解釈を取るより仕方ありません。なかなか歯がゆいところです。
方言・古語以前に日本語にはさまざまなニュアンスを付加する多様な終助詞が控えております。これらはキャラ語尾のような特殊なものはひとまず置いておくにしても普段使いの欠かせない表現骨格となってきており、もはや方言や古語のように一段別処理を施せばよい…などと簡単にはいかない事情をはらんでおります。
それだけ標準状態における機能語判定の不可避性が食い込んでいるものだとの認識をもって処理に当たらなければなりません。
別口入力パーツの中には、格助詞としてだけではなくて終助詞としての機能を兼任しているものもいくつかみられるのでここでひとつ整理して列挙していきたいと思います。
<文脈によって終助詞としても認識する別口入力パーツの例>
か…またお前か
が…この、おたんこなすが
に…悔しかっただろうに
と…しーらないっと
の…家帰って見るの
や…ちょっとは気ぃ使えや
か…図星だったか
な…ちょっと待っててな
て…後で食べるって
これらはまだ性質のいいほうで、終助詞=文の末端部 であることが分かって配置されているのがマーキングとも重なるわかりやすい使われ方であります。
文末以外だと後続へは引用の「と」「て」との接続、同様に「など」「なんて」「ぐらい」「しか」など副助詞的に展開されるものなども終助詞とセットで出てくるかもしれませんがマーキングがあるだけ助かりますので文の収束遂行も見届けたうえで構文全体の把握も結んでいけます。
問題なのはマーキングされていない自由終助詞、別口入力以外の終助詞要素であります。
未知語ではないかもしれないほど有名ですが代表的終助詞「よ」と「ね」の検出も単文字ということもあって意外に手こずる可能性があるかもしれません。
こんな調子でいくとちょっと個性的な未知終助詞、例えば「ぽ」とかのようなものをはじめとして理論的にはあらゆる単モーラが終助詞になる可能性を秘めていますので気が抜けそうにありません。
二文字以上の終助詞であっても未知は未知ですからなにか特徴的な接続要件であるとか活用要件であるとか手掛かりになりそうなものを掴むために掘り下げていきますと
まず終助詞ではありませんが語形変化の顕著な例として未然形からの接続、ナイ形の話さない→話さ[ねー]の変化があります。
他の活用では連用形は古語では(き・けり・つ・ぬ・たり(完了)・けむ・たし)などの助動詞がついたりしますが現代文では食べたいが食べてーになるくらいで連用形に終助詞相当のものがくるのはあまり見られません。
終止形(基本形)、これは別口入力のパーツであろうと自由パーツであろうとあらゆる終助詞のメイン活躍舞台であり口語・古典表現に関わらず既知未知のものが接続します。
終止形からは、特徴的なキャラ語尾である「--でござる」「--でゲソ」など断定の助動詞「だ」の連用形「で」+終動詞のパターンの一群もみられます。
ちょっとクセの強いところからだと、話すデス、やめるクポ、行くのん? などのキャラ語尾とも親和性が強くこちらは「で」を挟みませんが終止形接続の一角を占めるもう一パターンであると言えます。
また先程の未然形の時には触れていませんでしたが未然形には(う、よう)の語形を紐解くときに微妙な差異があります。例えば「読むべ」「暮れるべ」などのようにカタチこそ終止形+べにはなっていますが結果的に推量・意志の助動詞相当の未然形接続に代替しているものもあり、終助詞のタイプによっては接続する活用形を編配置するケースもまだいろいろありそうです。
未然形、連用形、終止形ときて今度は口語表現で特徴的なのが仮定形です。
仮定形からの接続には「明日になれば/話せば/言えば」→「なりゃあ/話しゃあ/言やあ」などかなり崩れているのもあり特に「言やあ」の変化バリエーションは標準形からかなりかけ離れているので語形変化に柔軟についていってくれれば良いのですが、なにしろ解析メカニズムの方針がまだ固まっていないのでここでは例を挙げただけでとどめておきます。
いずれにせよ莫大な未知語の可能性のある終助詞への対策は難航しそうですがここでの試行錯誤で各活用形からの接続パターンをうまく整理して汎用的に終助詞全般に対応できる枠組みを作っていければなりません。
これは今後の課題ではありますが今回の用言全般、あるいは終助詞にしましても構文解析的には文の収束、なにがしかの叙述要素を漏らさず検知して組み立てとして文構造の把握が文字通り"消化"できるように、
また文章の末端において"未消化"の異物(未知語)が居心地悪く残留してしまうことの無いよう不断の注意を払うことが肝要であると思います。