ここではまず複合語構成要素としての和語の存在について論じていき、それに加えてこの後の記事の漢語複合語に取りかかる前の地ならしとして文法機能語の解釈について掘り下げていきたいかと思います。
文法機能語なので必ずしも未知語複合語の関わりとは薄いところがあるかもしれませんが、解析に関わる未知フレーズが機能語がらみで出てくることも大いに考えられますので文章を統語的に理解するというプロセスのうえでも風通し良く議論の道筋をつけたいという意味においてもどうしても触れなくてはいけないところですのでどうぞお付き合いください。
和語と言ってもいにしえの大和言葉の使い方のような大仰なものではなくて現代文で普通に使われる基礎フレーズや複合語要素としての和語の存在に焦点を当ててその傾向や法則に少しでも迫っていければ良いかと思います。
まず和語の混じる複合語を何の気なしに思い浮かべると◆「レッズびいき」「おしどり棋士」みたいなところがあげられるでしょうか。これはシンプルに既知語+既知語→合成未知語の組み合わせですから表記には気を配りつつも漢語+漢語複合語やカタカナ+漢語複合語などと同様に処理していけば特に問題はないと思います。それに和語とは言っても生産力の高いパーツで付加されているので接頭辞・接尾辞入力操作の扱いの範疇でできることも助けになります。
◆「注文忘れ防止」「捧げもの絵」このケースは動詞活用形で少しニュアンスのついた和語が混ざっていますがどうやら複合語要素になるときには連用形の転成名詞化しているフォームを保っているのが特徴的ですから動詞検出/活用形の推定ができたのなら連用形だった場合の連接やりくりは名詞または複合語要素の連接ふるまいに捉え直して二語三語以上の複合語の時でも順次連結して語尾成分の接辞パーツとなめらかに接続できるよう解釈していければ良いかと思います。
◆「解放どころ」「添え物ばかり」このへんになってくると接辞というよりは統語構造においての機能(ペンタクラスタキーボードならイ万ロ万ハ万三属性)での役割変化も気になってくるところです。
--どころ、--ばかり、は確かに生産力パーツとしての形態を持ってはいるのですが例えば「ダイエットどころじゃない(文脈)」「人気のダイエットどころ(場所)」と構文での文法機能が異なってくるケースもあり、解析の助けとしてユーザーが三属性変換のよろづを選択することによって「ばね量り」/「バネばかり」のように区別することが役立つ場面もあるかもしれません。
さらに接辞や複合語だけにとどまらず◆「知識欲ゆえ」「中毒性たるや」「哀れ民草」みたいな例では副詞的、枕詞的、連体詞的?、など判断のつきづらいカテゴリではありますがこれらのパーツも確かに生産性の高い、つまり未知語の生まれやすい土壌を持つフレーズであります。
別口入力できる要素は一文字粒のモノでなかでも頻出のものだけに限られますので純に未知チャンクを複合語のカタマリと期待することはできずに必ず非レギュラー助詞や機能語、あるいは助動詞の活用変化の一部などが混入している場合にも備えなければなりませんので
ここまで段階的に典型的未知語から範疇不詳の未知語へと視点を移しつつ説明してきたのですがこのように(内容語でない)機能語を取り扱うということはまずそれらをひとチャンクの中から分離して複合語処理前段階のまな板を整えるフェイズが必要になってきます。
この分離フィルタリング中に文法構造に見通しをつけたのち接辞同様に複合語要素に組み込んでも良い文法語が浮上してきたのなら「分離からの再統合」を適切に行って先述の「ばかり」や「たるや」などを複合語解釈のラインに載せていきます。
これら一連の処理を本ブログでは「機能語トリートメント」と名付けて今後この言葉を援用して解説を進めていきたいと思います。
なおただいま記事展開しております「入力上の待遇①~⑧」の記事テーマのカタカナ語・ひらがな語・漢語複合語・接頭辞接尾辞...etcの各記事は複合語の取り扱いについてあれこれ考察していく際には、この「機能語トリートメント済み」の前提で話を進めていきたいのでどうぞよろしくお願いします。
機能語に関してさらに少し申し上げますと、先の例「中毒性たるや」の「たるや」に注目していきたいと思います。
このたるやには2つの入力法があり一つは助動詞[たり]の連体形に助詞[や]の付いたものとしてのものがあり、それとは別に[や]こそ別口助詞入力を添えるもののこのひとフレーズで連語チャンク化しているのもあってか厳密に別口入力[や]を要求するものでなく「たるや」をべたのひとかたまりで入力することを許容しています。
そのため別口付随でもべた入力のどちらでも使い分けに不自由がないようにするために三属性変換(+通常変換)のユーザー入力によってこれを選択できる機構を用意しています。
別口助詞付きの「たる[や]」の場合は機能語としての「たるや」(通常変換)の場合と「足るや」(ロ万)、「樽や」(イ万)の場合の3つの解釈があります。
かたやべた入力の「たるや」の場合はこちらも機能語(連語)としての「たるや」の場合と「樽屋」(イ万/ハ万兼務)の場合の2つの解釈があります。
どちらの場合であってもまず通常変換の機能語としての「たるや」は最上位判断で通常変換の基底を保持し、そこから特定の具体性を帯びる各種のよろづの受け皿は下位振り分けの三属性変換に委ねていきます。
このように機能語とのカラミのある複合語解釈では通常変換バイアスとの競合がにわかに浮上してきますが大抵の通常変換候補は機能語と結束しているものを優先的に提示していきますので
例えば通常変換で「貸そうとしない」と出てしまうところを複合語に解釈する「仮想都市内」に捉え直してほしい時には名詞解釈のイ万のキーを押すか接尾語「内」がついているので接辞モノ解釈のハ万のキーを押してユーザーの意図する複合語を選択していきます。(もっともこの例では別口入力の[と]が入っているので適切な例とは言えないのですが簡単のために導入させていただきましたご容赦ください(^^;))
さて前回の記事では結局未知語は基本カタカナにすればいいみたいなニュアンスで言っていましたが文法機能語は大和言葉ですのでうっかりカナにしてしまうことがないようしっかり検知していかなければいけません。
そのこともあってか事ここに至って「機能語トリートメント」という準備処理をしっかりこなしたとの確証をもって、ひとタスクを済ませてはじめて複合語解釈にいけるのだということを再認識しなければならないということです。
今はまだ解決策が固まってきてはいませんが、「樹木希林 直筆コメ寄せ心境」みたいなニュース見出しみたいに凝縮された複合語フレーズなどへもゆくゆくは対応できるようにどの語とどの語の接続を連接可能性として許容していくのか、その語彙性質、品詞・よろづ・活用などの抽象クラス、あるいは語頭/語尾での配置特性の有無などの条件をうまく整理して未知語の解釈さばきの方法論を確立していきたいと現在奮闘中のところであります。
最後に複合要素としての和語を語る上で外せないトピック、「複合語連濁」についても触れておかねばなりません。
日本語においては複合語後部要素初頭の清音が濁音に変化する現象が見られ、これを連濁といいます。
連濁は主に和語にだけ起こる現象で漢語や外来語との接続では基本は濁らないものされています。ホットゲーキ(ほっとげーき)であるとか開発計画(かいはつげいかく)などとは言わないのはいい例です。
ただし元は外来語であったとしても完全に馴染んでしまって日本語化された言葉では連濁を起こすものがいくつかあります。(株式会社かぶしきがいしゃ、いろはガルタなどの例)。
ちょっと規則が面倒なのですが、
・従属関係の複合語は連濁し得るが、先の語とあとの語が反意語や並列関係の場合は連濁しない(読み書き、飲み食い)
・あとの語に濁音がある場合は連濁しない(おおとかげ、*反例:なわばしご)
・先の語に濁音がある場合は連濁しない(永田、ハゲタカ、*反例:むぎばたけ)
・音象徴語(擬態語・擬音語)の場合は連濁しない(てとてと、こりこり)
・ただし同じ繰り返しでも複数/性状様相/強調の機能を持つ畳語の場合は必ず連濁する(懲り懲り、細々、端々)
などの法則があり、とはいえ慣用から機能形態由来までさまざまな例外があり現在においても漏れのない定義は整っていないのが現状であります。
未知語処理においては最初の項で触れた従属関係の複合語(<修飾・被修飾の関係>と<主語・述語の関係>を持つもの)が大きな課題となるところで、その下位ポイントとしておおとかげやハゲタカ例のようなところを修正事項として捉えていけばいいものと受け取っています。
未知語造語の語と語の関係(統語構造)にまで分け入って適切に変換候補をあて込むことは現状ではかなり難しく(特に次記事の漢語複合語になるとその難易度は想像もつかない)、構造理解を一部簡略化して接尾辞的な生産力の高い和語造語パーツに的を絞ってこれをおこない、
従来のIMEではあまり重視されてこなかった"連濁する方の接尾辞"を登録単語にくまなく収録することで少し強引ですが乗り切っていきたいと考えています。
なぜ従来のIMEでそういった辞の充実がなかったのか理由は定かではありませんが、おそらく既存の語との無用な衝突・混線を避ける為であっただろうと考えます。
しかしペンタクラスタキーボードでは通常変換で望む変換が出てこなかったとしても三属性変換へシフトして属性を絞っていくオルタナティブな救済手段が手厚く用意されているのと、そこからの学習登録の効果を加味すれば衝突も気にせず語彙資源を利用できますし
何よりも通常変換のバイアスがかかることで常に角度のついた一定のパターンに沿って変換候補へたどり着く導線が保証されているのが闇雲な混線を招きにくくなっていて、これは大きなアドバンテージだと自負しているところであります。
抽象的なことはともかく実際に役立ちそうな接辞要素を列挙してみますと
「おどり炊き」「学級づくり」「生悟り」「古豪揃い」「大阪住み」
「普段履き」「スキン替え」「センター帰り」「SNS断ち」
まれであるが接頭語例:「映えスポット」
などがアクセスしやすければ重宝しそうです。これは単に動詞の連用形を名詞扱いすればいいというものではなく、帰りには返りなど他の競合語に埋もれないように接辞要素を多分に意識した候補出しにするとともに連濁活用が基本活用の枠組みの中では十分に反映されないところを補う意味でも網羅的にパーツを収録していくというのは大変重要なことだと強調したいところであります。
また動詞ばかりでなく語幹を埋没させやすい形容詞一般の造語要素にももちろん適用させていくのが最善であると思います。こちらの例は
<接頭辞要素(形容詞)>
「旨シェフ」「塩握手会」「ゆる受験」「痛スマホ」「凄得クーポン」「甘デジ」「だる着」
<接尾辞要素(形容詞)>
「つれ安」「鬼強」「ふわ軽」「ブリ寒」「最薄」「修羅エモ」
などこちらもセールス広告やネット流行語などの場面で役立ちそうです。
形容詞の接辞使いには接頭語も割と多くみられるのが特徴かもしれません。
接辞要素を受け持つ三属性変換・ハ万の変換ではありますが、辞の意味成分からダイレクトにイ万・ロ万に飛ぶのもよし、一度ハ万を経由してからのイ万/ロ万への遷移を使って目的の未知語にたどり着くもよし、
単に接辞としてだけ見るのではなくそこに含まれるよろづ的傾向:安いなら安→様態属性のロ万、といったふうに形態を越えて語彙概念の味付けにもうまくはたらきかけることができれば目指す理想形へ一歩近づくことができるのではないでしょうか。
こうして見ると和語は漠然とひらがな文字列が並んでいるようなイメージでしたが広く訓読みのできるワードはそもそも漢字として存在しているものが数多くあるのでやはり「かな漢字変換」、漢字に変換するというプロセスが和語でも決して外すことのできない表記ケアなのだということを再認識させられました。
最後のほう、ちょっと番外で「エモい」なんてのも入っておりますがこれは外来語由来ではあるものの「-い」がついて形容詞化された新語としての接尾語要素ですので運用としてはもはや日本語和語の範疇で処理しても良さそうでもあり、このようなカナ/横文字+[い]の形の造語なども定着度によっては接辞要素として処理することもありうるかと思います。