P突堤2

「でにをは」別口入力・三属性の変換による日本語入力 - ペンタクラスタキーボードのコンセプト解説

初めて訪問された方へ

P突堤2へようこそ!
キーボードの配列・機能の説明はこちらです。
お知らせや補足事項なども表示してあります。

具陳なのかクリシェなのかを見定める(1)

2021-11-26 | ジャンル横断的な問題

たとえば単語単位の言語モデル(単語N-gram言語モデル)で連接を拾っていこうとするとき、「気が気でない」 みたいに通常の慣用句としてなら取り出すことは可能かもしれませんが
何か学芸会の劇の出し物で「木が木でない」といった状態をあらわそうとするにも特殊な文脈ではあるかもしれませんがこういうケースに当意即妙に変換候補を出す手立てというのは未だ考えられてはおりません。
もちろんユーザーが注目文節を絞って選択手当てをしながらやればできないことはないのですが初見ではなかなか出せない芸当であります。
そもそも単語N-gramでは(き-が-き-で-ない)みたいに4gramや5gramのように次数を上げていくのは処理負荷の面からも現実的でなく(注:可変長N-gramというのもあるにるある)、
一般的に分かち書きのない言語において慣用句などの短い助詞が連続して挟むフレーズというのは単語ベースのN-gram言語モデルにとっては苦手とする懸案であると言ってもいいでしょう。

ただ時には「古稀のプレゼント」ではなく「子機のプレゼント」としたい…つまりクリシェではない、固有の具体物として素材を扱いたくなる時もあるのではないでしょうか。
具陳なのかクリシェなのかの分解能が整っていないのはN-gramに限った話ではなく、同様の解析アプローチである形態素解析においても根源的な構えはまだ見い出せてはいないようであります。
つまり慣用句ポジティブによる検出はあってもそこから対置する具陳としての可能性に対する探索や提示UIは暗黙的に眼中から漏れているのではないでしょうか。

ここまで言ってちゃぶ台を返すようなのではありますが、一応の解決策はあります。
ペンタクラスタキーボードの文字コード体系を一から再構築してしまって独自の文字コードをあてるに足る根拠というのがまだ不足しているかもしれませんが
要は別口入力の助詞や機能辞のリテラルを一般のべたかな文字とは一線を画した完全に別物の文字コードに甄別(けんべつ)してしまおうというのが前提になります。
もちろん整合性やシステム的に実現可能であるのかという話は置いておきまして、今は想像の翼を大きく羽ばたかせたうえでの自由な妄想としてお受け止め下さることを念頭に置いて話を進めていきたいかと思います。

助詞に別の文字コードをあてれば単純な話「手塩にかける」みたいな慣用句でも
てしお[に]かける
といった具合に別口入力「に」を固有文字として扱えば、この並びの時の文字列の限定性はより高まっているので
手塩に賭ける、書ける、掛ける、欠ける(認識粒度がバラバラだと近視眼的組み合わせを想起してしまう悪癖)
等の誤変換をデフォルト候補から抑制させるカラクリも考えられますし(活用変化への対応も懸案課題ではありますが)、別に慣用句でなくとも
いれたて[の]おちゃ
みたいな規定句のクリシェに対しても従来は「入れた手」/「淹れたて」の対立を(連体形+体言なのか動詞連用形+アスペクト接辞たて)なのかどうかをつぶさに解析比較してやっとの思いで適切な候補をひねり出すプロセスがあったりしたかもしれませんが
助詞を含む字面の並びだけで格納してしまって一番頻度の高い解釈を力業で広範囲に各個網羅してしまえば効率よく例外対応が布けるのではないでしょうか。
もちろん前述みたいに動詞用言あるいは形容詞的規定句などの語末の活用バリエーションにも配慮しなくてはなりませんが通常変換でクソリプをなるべく出さずにデフォルトで慣用句チャンクを優先的に取り出す手立ては確立できているとの手ごたえは感じております。

ただ見込み通りに首尾よく処理できるかどうかも模索中でありますので、当記事ではあまり完成された見解というものは期待せずに、現時点での全体像を持たぬままの手探りで目につきそうな論点を散発的に挙げていくに留めておきたいかと思います。
独自の文字コードというのはさすがに大きく出たな(…驚)と評されるお題目かもしれませんが、これは慣用句トピックのみならずペンタクラスタキーボードの三属性変換-通常変換のシステムとも深い関わりがありそうですしタッチ液晶サジェストとのカラミも掘り下げてみたいですし文字コード以外にもジャンル横断的な分析事項は多分にある未踏領域なのではないかと踏んでおるところであります。

まず目につきそうな問題としては具陳/クリシェの境界を峻別する明快な基準はあるのか…という問いが出てきます。
死角はなかった/資格はない
…このフレーズに出てくる「しかく」の使い分けに関しても
(--する)資格はない!のように動詞由来連体修飾を伴う傾向が多そうな「資格」でありますが
かたや「死角」のほうはと言いますと「我が立海の三連覇に死角はない」のように《人称・所属名詞+に+死角はない》というような用例の傾向があります。
この用例から天邪鬼的に逸脱した使い方、たとえば前述の用例構造をすっかり交換してしまった例:
・歴戦の東隊長に資格はなかった
・昼間からパチンコする死角はない
のようにクリシェとは反する用例をどのようにして判定するのか、典型例を局所的に切り取りしただけではそうは問屋が卸さない困難性を抱えています。
語彙なのか概念クラスなどの素性を捉えることと、文全体としての統語構造を分かったうえでないと(またそのために)どれが正則でどれが逸脱なのかを判定するために慣用句とそれに隣接惹起するフレーム設定が求められているのかもしれません。
これは両方ともクリシェ《しかく-ない》でコンフリクトしてしまう悩ましい例であります。
無理を言って三属性変換から解決の糸口を手繰ってみますと、いささかこじつけのようでもありますが
死角…様態属性ロ万の色合いが強い
資格…名詞属性イ万の色合いが強い
よって通常変換時はロ万の解釈を優先させるので「死角はない」のほうを採ることになります。
もちろん得心がいかなければ二回目以降の同じ言い回しのときはユーザーの選択した用例学習によって定着させていくことになります。
根本的な解決ではありませんが、候補提示順位の正当性は最適ではないものの名分的には非対称に組み立てていくことが可能になります。
通常変換バイアスに適合するものが正則で(学習も含む)、それ以外の属性をもつものはその他の三属性変換に任せるという形です。
具陳なのかクリシェなのかの判別は棚上げになったままではありますが、一意性のある導線は普請できたのではないでしょうか。

副詞のクリシェもたくさんあります。
「明に暗に圧力をかける」というフレーズも敢えて具陳を際立たせたいときは「メイにアンに圧力をかける」などのようにしたいときもあるかもしれません。
そんな時には標準提示候補「明に暗に圧力をかける」から具陳フォーカスの三属性イ万をひと押しし、メイに、あるいはアンにフォーカスがあたって無事クリシェの枠組みをほどく運びとなります。
ただ副詞にかかる用言というものが一語の用言ではなくてチャンクごと連句になっているものの場合はどうなるのか、
たとえば「非常に」にかかる用言というものを精査してみますと
・非常にうれしい…これは単純な用言
・非常に親和性があり…親和性がある…存在文は比較的連語でも一括りしやすい
・非常に気分が晴れた…ちょっと込み入った文だが 気分が-晴れる はコロケーションとして記憶できそうな範疇
・非常に格好を気にして…格好を気にする…これは自由連結に近くてひとチャンクで認識するのは難しそう
のように副詞が修飾ターゲットとするチャンクのレンジが定まらず検出困難になりそうなケースも見え隠れします。
今の例では副詞が「非常に」の一語であるのでパッと見構造自体は掴みやすそうなのでありますがこれが先述のような「クリシェ副詞」のようなマクラが来ると連語の連続にかかる用言もまた連語で…となってしまい連語中の断片同士が干渉して混線してしまうリスクを拭い切れません。
どっちのクリシェでどっちの具陳なのか収拾がつかなくなるのに加え、副詞には呼応の副詞などもあって文頭から係って途中不如意のうちに文末付近で結ぶ…なんてものもありそうですからますます始末が悪いです。
いずれにしましても規定句のクリシェや用言のクリシェは格納データと照合データの写像が1対1対応になると見込まれておるので策も立てようがあるのですが副詞あるいはアジェンダ名詞などの導入はそういった構文上からも解析困難でありますし、インターフェースとしての「通常変換バイアス」のもろもろの選好偏性というものがどういった悪影響を及ぼすのか現段階では見当もつかないのであります。
※通常変換バイアスというのは、たとえば
・住ませてから(使役などの文法的ニュアンス有→通常変換)/済ませてから(単純用言→属性ロ)
・そこにいるだけで(「そこ」文法顕性語含む→通常変換)/底にいるだけで(具体瑣末語指定→属性イなどの三属性変換)
などのように副詞の事情とは関係なくそもそも三属性変換の便宜のために用意されたインターフェース導線のこと。

…このようにまずもって言えばクリシェ副詞の位置づけ問題はあくまでローカルの問題であり通常変換バイアスのメカニズムこそが通底する前提ファクターになります。

副詞の扱いで延長上にあるものとして拙ブログが提案するところの「アジェンダ名詞」というものがあります。
副詞には「<最近>地震が多いな」みたいに助詞抜きの名詞提題の【時の副詞】みたいなものがありますが、これを拡張してより固有語色の強い主題・提題の連用修飾用法をもっと掘り下げていこうということで以前から取り組んでいるテーマなのですが、
今記事の趣旨に沿ってこの【提題+叙述】の句を一体のクリシェと見て選別的に抽出できないか…というアプローチについて検討してみようかと思います。
連用修飾する名詞にとどまらず、連用は連用でも連句を惹起させるという意味で修飾とは性質を異にする、隣接・相関関係としての「連用承接名詞」というものを手広く汲み取ってやろうという野心的な試みですのでまだ確立された知見ではありませんが未熟ながらもどうぞお付き合いください。

私はそれをアジェンダ名詞と名付けましたが、主語あるいは題目が"助詞抜き"で繋がっている事、ここに繊細な粒度での検出能というのを尖らせて問題意識を高めていこうというのが出発点になります。
助詞付き文(いわば親切な文)での題目用言の連なりは単に構文でありクリシェであろうと具陳叙述文であろうと助詞があるだけ性質の良いものであり標準状態での構文解釈に不確定要素はそれほどあらわれるものではなさそうですが
(助詞抜き)題目導入フレーズのクリシェ化は適用場面も段違いに増えてしまいそうですしただでさえ複合語や単文字助詞以外の機能辞(長尺助詞)など区切り判定問題などでとかくに煩雑な処理なのにこれ以上問題を増やすなと言われそうな観も抱きつつも
むしろ不確定要素こそ分解能を高めて原因因子を事細かにタイプ別して取り出していくことにより、かかる問題を構造的に理解していくことができますし「急がば回れ」式の尤もな解決スタイルなのである事を力説したいです。

ここでアジェンダ名詞導入文をひとつのクリシェと捉えたものを実例を挙げながら確認しその背後にどんな洞察が見られるか分析していこうと思います。
【アジェンダ名詞導入文】
・1配置検討してみる/ハイチ検討してみる
・2統計採ってみて/闘鶏撮ってみて
・3崋山歴長いんだねぇ/火山礫長いんだねぇ
・4ひと試しログインしてみる/人試しログインしてみる
…以上の4例です。ちょっと無理のある作例もありますが今例では同音の対立を際立たせた方がつかみやすいと思うので構わず続けます。

まず例1の配置のほうはよりクリシェらしくて頻度も高そうな感じですがハイチのほうはやや具陳寄りで具体性・特定性の高いワード運びが感じられると思います。
次に例2の闘鶏もやはり流れはあるものの提題があまりにも特定的で用例辞書に入れるには些事枝葉(よって却下)といっても差し支えありませんね。
闘鶏のコロケーションには「闘鶏によると」「闘鶏が出ている」「闘鶏にアクセスできる」というのはもちろんないですし助詞抜きバリエーションのころがし方としては統計のほうが全般的に展開性が豊富なアジェンダ名詞だと思います。
さらに例3では--歴、という接尾辞が提題性を帯びさせている文法要素だと思われ、この語以外にも広範な種々/性質の語であっても末尾に「歴」と来るだけで助詞抜きアジェンダへと転化できるポテンシャルというのが認められるかと思います。
同様に例4では接頭辞「ひと」あるいは「全」「両」などもひとチャンクで提題性を帯びさせる特殊な導入だと注視したい勘所だと思います。もちろん助詞抜きチャンクとしてです。

以上のようにマクラにもってくる語に優位劣位(アジェンダ展開性としての)というものがあって格納データ:単語素性というものにフラグなりパラメータなりをつけて何らかの標識づけをする必要に迫られてきています。
ただ単語単位でこれはころがし値が高い/低いのように個々に設定していくのはなかなか困難なのではないか…との煩累を抱えています。
ひとチャンクで導入接頭辞/導入接尾辞からの連なりになるものもありますし、個々の場合で網羅的にクリシェを検知する枠組みからはどうしてもこぼれてしまうものもありますので、もっと包括的に、字面のクリシェではなく構造的クリシェへと枠組みを広げていかねばなりません。
これといって解決策になりそうな"構え"はまだ見いだせてはいませんがこれまでやってきた取り組みのなかで「三属性変換:よろづ」というものがあり等文字列長のほぼすべての音韻衝突を3タイプに類別してしまおうという一大体系というものを援用してみてはどうかという副産物に期待する作戦でいこうかと思います。
三属性変換の名詞/具陳属性の「よろづ:イ万」では複合語派生語まではムリですけれど大抵の語の名詞的検出の受け皿は整っているとの前提で話を進めます。(未知語の場合は今はおいておきます)
語にはそれぞれ所属するよろづ(カテゴリー)というものがあってたとえば動詞/形容詞/形容動詞/名詞述語文/その他の非活用用言などさまざまな叙述パーツは三属性ロ万に割り振られます。
複数のカテゴリーを兼任する語もあります。
たとえばアジェンダ名詞として検出できる兼任ワードとして「勢い」というのを例にとってみましょう。
これは額面通りに言えばまず副詞の「いきおい」が浮かびます。そして名詞の「勢い」こちらは漢字表記です。そして本質的ではないのですが、ペンタクラスタキーボードの三属性変換では「その場の勢い」みたいに叙述として使われることも考慮して様態属性のロ万も兼任しています。
ただこれがアジェンダ導入として使われる場面では、「勢い誰にも止められないな」というのがあったりもしてこれは名詞アジェンダ使いではありますが通常変換本来の副詞を優先検知する「いきおい誰にも止められないな」との衝突も起きますが意味上の妥当性の如何はここでは厳密に問わずに、形態上のヒントだけで候補を提示するには両論併記するために分解能だけは持っていなくてはいけません、
このようにアジェンダ名詞に該当する語が属性兼任なのか属性専業なのかについては有意に注目すべき観点でありますので詳細は後で述べますのでいったん心の隅に留めておいてください。

まあまあいろいろありまして三属性変換(+通常変換)の枠組みを援用して判断材料というものを整理してみるとするなら、そして各々個々のクリシェ連結を網羅検知するのをあきらめるとするなら、大雑把に5点の因子でアジェンダ名詞のとりたての帰趨を司ってみる方針を立てました。
その因子とは、

・規定句で結ぶ名詞はアジェンダ化しやすいのでクリシェトリガーとして検知しておく(動詞での規定、形容詞での規定、形容動詞での規定、ノ形容詞での規定、連体詞での規定)
・接尾辞で構成される語句のものの中で[体言下接の接辞派生語]または[末尾が名詞性接尾辞]のものに関してはアジェンダ性を認めクリシェトリガーとして検知しておく
・接頭辞導入で構成される語句のものについてはチャンク適格性についての見立てはまだ模索中であるので判断保留
・粗筋・検証・意味・経緯・緩急などの語には共通点がある…それは[--次第]というくくりが成立しやすいということ…これを"ゲージ語"と名付けアジェンダトリガーとして検知しておく
・以上の条件に当てはまらないもので、三属性でイ万(名詞)専業のもの、そして通常変換バイアスでの引っかかりもない兼業のないものはアジェンダ検出においては軽視し勘定に入れない

…であります。これなら条件が絞られてきますし個別的でない構造的な検知体系が望めますね。
ただここで提言した"ゲージ語"というものはコンセプトがまだ固まっておらず挙動としては「助詞なしころがしポテンシャルの高い抽象語」というざっくりとしたイメージでしか捉えられてはいませんが
具体例として挙げた[--次第]という派生以外にもうまくゲージ特性を説明できる語彙が他にはないか例によって今のところ探索中であります。

そしてイ万専業のものはアジェンダ検出において軽視すると申しましたが、「うなぎ硬派だなそのチョイス」みたいにうなぎ単体からの助詞抜きアジェンダなんていくらでもあるじゃないか…と言われるのはちょっと痛いところ突かれたかな…という思いもあります。
この辺はアレですね…タッチ液晶でのサジェスト実績いかんによってとりたててやればいいんじゃないかと…。「ウナコーワ」のウナを日常頻用している方にとっては「ウナ技巧派だなそのチョイス」になってしまうとしてもそのへんはさじ加減なので致し方ないところもあるかと思います。
ただ人名や地名に関してはアジェンダ接続が頻出のカテゴリですのでタイプ文片からの変換履歴を大雑把に取得するのではなくてちゃんと人名なら人名、地名なら地名と範疇所属を明かしたうえで登録学習していった方がいいでしょうね。
とは言ってみたもののいちいち事細かな単語登録をさせるのもユーザーに負担がかかりますし、確定文の構成から賢いAIなどの介入などによって人名なら属人やりとりのアクションがみられる、地名なら移動伝達に関するアクションがみられる、などのフレームやコロケーションの連接配置から自動的にカテゴリを推定してくれる魔法のような構文解析といったものも現時点ではとても望めそうにありません。
ですのでちょっと忘れかかっていましたけれど区切りマーカーのメタ文字[Ø]を適宜使っていただいてアジェンダ名詞のチャンクをユーザーの関与によって明示的に判定してもらうというのがどうやら現実的な解決方法になりそうであります。

最後にタッチ液晶インターフェースについてもう少しだけ触れておきますと
規定句の変換にはタッチ液晶サジェストと相性が良い、という点に気づきました。
規定句は連用修飾と違って展開が絞られていく見繕い傾向というのがあって後になればなるほど被修飾の輪郭が限定されていく決着力というのをもっています。
これが連用修飾ともなると用言のコンビネーションはさまざまですから展開開放性をもつがゆえに先を予測するのが困難になっていくのとは大違いであり、ここに予測入力候補提示の「選択と集中」を試みる動機があります。
これは今後の課題でありますし当ブログでも継続的に深掘って最適形を探っていきたいかと思いますので今回はここまでということで続記事をお待ちいただきたいと思います。

少しだけ具陳/クリシェ的な規定句の例を2,3だけ挙げますと

地下の○○ / 地価の高い町
道の○○ / 未知のウイルス
家庭の○○ / 仮定の問題

このように後項の規定(属性規定)のほうが限定性が高まっているのを感じ取っていただけたと思います。
詳しい考察につきましては後ほど具陳!といきますのでもう少々お待ちください(^^;)

 


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

イッエーイ!モンヘァンのイッヌ、ぶっ生き返すぜー!

2021-04-26 | ジャンル横断的な問題

過去記事 アルファベット+促音の単語・表現いろいろ - 記事中の
冒頭のほうでチラリとローマ字入力のしにくい「イッヌ」の文字列について考察していきましたが(軽く触れる程度)、
話題はそこから「Mッフィー」「Mッキー」のような促音絡みの表記に力点を置いて展開していったのでやや消化不良気味になっていました。
検索流入傾向から見るにこの記事目当ての人はどうやら「イッヌ」目当てで訪問されておられる方が多いようですので、
せっかくですのでそのあたりを深掘りして、類似例なんかを収集・分析してみました。
要解説のものは一言コメントも添えてあります。

まずはさっそく

【ローマ字入力の限界を感じさせる入力文字列・列挙】

うっうー(アイドルマスター:高槻やよい)
ウッウ(うのみポケモン)
ありがとう民安ぁ!!(声優:民安ともえ)
ノイエ・ドイチェ・ヘァテ(ドイツのロック音楽形態の一種)
フュンフちゃん(ドイツ語の5、あとグラブルのキャラ)
モンヘァン
メルヒェン
とゅふもと
ツィーョ
メデイァ
面白ぇー
つっよ
ヤッッヴァ
ドラァグクイーン
笑ゥせぇるすまん
クレマチス・イュノスト(花の一種)
イッヌ
何だこれはぁぁーーーッンマイなあああッ!!(ジョジョリオン作中のごま蜜団子を食べて)
ぽっにょぽにょ
そふてにっを見たら(お気楽軟式庭球少女たちによる青春コメディー「そふてにっ」)
インカラマッの恋の行方は(ゴールデンカムイの登場人物)


補足関連例:
アルベロベッロのトゥルッリ(イタリア南部のアルベロベッロにあるユネスコの世界遺産登録物件名)
とろっ豆
クィアアイ
ツィゴイネルワイゼン
ハレのちグゥ
ヒョロワー
ヘッドンホホ
トラヒック
びじゅチューン!
シークヮサー

…いかがでしょうか、これを今手元のキーボードで入力してみてくださいと言われても困ってしまう方が大半なのではないでしょうか。

主なパターンとしましては

・母音の前に促音がくるパターン
・促音の後にくるN音重複(ん)が子音重ねの促音導入サインと混同されて「ん+単母音文字」と解釈されてしまう

の2パターンがもっとも如実にあらわれるところなのですが、
H行の(フ-以外からはじまる)拗音であったりとか、その他小文字とのカラミであったりであるとか
mm、yy、wwの形の違和感のある促音導入であるとか末尾促音終止、促音→ん などのつなぎ部分の破たんなど興味深いパターンがみられました。
ローマ字入力の早見表を知っていてもおぼつかない文字列なども補足例には挙げておきました。
あとはネットスラングなどでわざとちょっとひねった表記を好む例なども散見されます。

やっぱり何と言いますか、リテラルベースで表記調法を目指すのでしたら、少なくともローマ字の粒度は日本語表記を意図に忠実にあらわすにはどう考えても不向きなようであります。
日本語は話しことばはともかく、書き言葉の含みなしでは成立しえないほどリテラルに依存している言語でもあるのでやはりいずれはこの問題は避けては通れないものとなるでしょうね。
表記には思いの外こだわりをお持ちのお方も多いですので、特に入力では「1文字1打鍵」ですっきりしたインターフェースが理に適っているなと改めて思う今日この頃なのでした。

 


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

新語・造語・未知語の入力上の待遇④ 漢語複合語

2020-04-28 | ジャンル横断的な問題

①でカタカナ語、②で終助詞を含む文末表現、③では文法機能語と和語 について解説していきましたが今回はようやく未知語解釈の本丸「漢語複合語」についてまとめていきたいと思います。
複合語を論ずるのなら、まず接辞のついた語についてウエイトを置いて紐解いておきたいのは山々ではありますが、ペンタクラスタキーボードの三属性変換のハ万にて接頭語接尾語を含む語の変換を担当させておりますので個々の接辞がらみのケースは別にして次記事で掘り下げていくことにして、
ここでは複合語をおおまかな未知語単位と捉えた観点からの考察と、よくある次々に漢語が結合して長尺の複合語になる(専門的には「臨時一語」「即席合成語」とよばれている)ケースを念頭において話を進めていきたいかと思います。

漢語文字列の待遇上の眼目としては<マルチな複合物としての漢語複合語(長尺複合語)>といわゆる語構成寄りの<熟語構成タイプに基づくもの(主に二字熟語)>は別のものとして考える、というのがあります。
いわば「表面張力解析結果指導原理概要」みたいな未知の複合語が前者であり、「超訳」「統廃合」みたいな新構成の未知語が後者であると捉えます。
前者の長尺の複合語は単純に既知語が逐次的につらつらと連なるだけでしたらシンプルに変換もうまくいくとは思いますが、マルチ複合語には単に語の連結が線上並列しただけとしては捉えきれない、統語的構造解釈を援用しないと適切に変換できない種のものがあるためこれを解釈枠組みに組み入れておく必要性があります。
たとえば「先進物流拠点」の先頭要素「○先進」を「×専心」としないためにも先頭配置ポジションをみての候補割り当ての違いも求められますし、逆に語尾要素なら「ライン生産士気向上」と、向上は接尾語ではないものの統語上の主述の述部として語構成をなしていてこちらも結語としての末端配置というポジションを意識して適切なパーツを提示する任が求められます。
こちらは「ライン生産式工場」としても良いかも知れませんが「-式」(接辞ハ万)「-工場(名詞イ万)」などのように三属性変換へ帰着させる受け皿もありますし、通常変換操作の無標の状態においては「-向上」のように動きのある末尾要素で締めるのも一種のバイアスとして未知語さばきにニュアンスをつけるスタイルとして確立していけば良いと思います。
こういった臨時一語の末端要素は、ニュース見出しなどでもよく見られるものであり、「○数年ぶり提示」「×数年ぶり定時」と文脈によっては判断しづらいケースもあるかとは思いますが、選択フローに非対称性・指向性をもたせるためにあえてモーションのついた「ハネる末端要素」を様式美にまで昇華させることがひとつの狙いでもあります。
まずは第一候補、基底状態においてこのような角度をつけ、あとは随意で三属性変換へ降りて行かせればユーザーもパターンに慣れて予測のつく候補選択フローになっていきますのでユーザーインターフェイスの設計思想からも理に適っていると思います。

長尺複合語は辞書にも登録しきれない臨時造語的なものであり網羅不可能なものと割り切って考えるしかありませんが他方漢語二字熟語の類は極力辞書登録しておきたいところだ、と考えています。
漂着や愛着みたいな素朴な二字熟語はもちろんよろづ素性も含めて登録必須のものでありますが、同じ着でも降着や発着みたいな本義的でないところのものである(叙述必要性から生じた「差異視点語」としての熟語)ものも網羅していかなくてはなりません。
あるいはもっと俯瞰してみると、「試打」「転厩」「残侠」「毛量」「配神」「採番」「退棟」「粘投」などのような、国語辞典に立項されていない(あるいはされにくい)語に至っても最大限登録収録していくとの結論に達しました。
それは従来のシンプルな変換キー一本での変換(これを単相変換と仮に呼称します)では同音語収録をむやみに増やすと変換競合が増えて望ましい変換候補が埋没しかねないリスクが避けられないところなのですが
ペンタクラスタキーボードの三属性変換においては三属性変換のよろづ・ハ万で解釈できる語を通常変換とは隔意をもって別領域に寄せることができるのでそのような問題がなくもし初回の変換で通常変換候補に出ないとしても三属性ハ万を押してやりニュアンスを汲み取らせてやれば容易に立項困難な二字熟語にアクセスすることができます。
あとは学習次第ではありますがこのように住み分けができているので同音語とりたてに億劫になることもありません。
かえって"空きスロット"のある三属性の空白を埋めることができるので積極的に他のよろづにも補充十全性を満たすことにつながります。三属性は鼎立してこそ真価を発揮するものなのでちょっとスノッブな語でも空き属性が埋められるのなら積極的に収録していくことで使わなそうな言葉にも存在意義が生まれてくるのです。
このような効果を単相変換に対比する概念として、「複相変換」「多層変換」と名付けて今後の考察やアピールに活用していきたいと思います。

二字熟語は複数の漢字が結合するところのもので最も基本的なものでありますが「鉄」や「運」などのように一部では一字で意味をなすものもある一方、大方は二字の形で語として用いられるものであり例えば「鉛筆」という熟語では「鉛(えん)」も「筆(ひつ/ぴつ)」もそれ単体では意味が通じない拘束形態素というものであります。
漢字の字音は熟語を作るためのみに存在する拘束形態素となるため断片だけでは用を足せず、面倒ではありますが熟語ひとかたまりをもって個別に記憶させるしかありません。
ここで漢語の内部構造に分け入って、漢字同士の役割分担関係/ウエイトバランス関係が成立することを確認しいわゆる統語論的な観点から参考になるデータをあげて熟語構成タイプについて(他にもさまざまな分け方もあるが)一例を示したいと思います。

<--語構成から見た中日同形語[何宝年 2011] から一部略記も交えて引用-->
(2)複合語
根字と根字の結合関係により二字複合語を次の六種類に下位分類できる。
①連合型②修飾型③主述型④補足型⑤動賓型⑥主語後置型
-------------------------------------------------------------
①連合:名詞名詞-階級子孫夫妻人々人魚/動詞動詞-援助教育進歩彫刻/形容詞形容詞-盛大巨大多少貧富
②修飾:名名-英語液体海軍税金/動名-作品食料住宅燃料/形名-青年勇気/形動-軽視重視
③主述:名動-意向国立地震市営
④補足:動形-改善減少縮小増強増大
⑤動賓:動名-成功演劇営業革命決意延期衛生同情
⑥主語後置:動名-変質変心変色変形出血降雨発病

さまざまなタイプがありますがなぜ即今理解が必要であるかと言いますと、ペンタクラスタキーボードの運用は通常変換だけなら読みと単語だけ、データ字面だけ記憶させればいいのですが看板コンセプトとして三属性の変換というのがありそれを取り回していく上で上記の熟語構成タイプの知識が連想のヒントに役立つと言えるからであります。もとい役立つどころか関係は密接にあります。
まず三属性変換の属性ハ万では接頭辞接尾辞を含むワードの変換を担っておりますがいろいろとコンセプトを煮詰めていく段階において「接頭辞接尾辞を含むワード」→「生産力のあるパーツを含むワード全般」→「熟語構成において役割性の色彩を持つ根字も汲み取っていこう」
、と初期の頃に比べて適用範囲が広がってきており三属性ハ万の守備範囲が拡大中であります。さらには接辞だけを見る形態論的な視点から語彙・語構成をみる統語論的な立場を折衷する方向性へとシフトしてきていることを意味するものであり機械的でモザイク的な接辞捉えからデータ化するのが難しい語彙の持つニュアンスの違いを造語ビルドや同音語候補選択の振り分けに活かしていこうじゃないかというところに落ち着いてまいりました。
もちろん基本的には二字熟語は個別収集的に、統語を考えることなく、時には代表変換のビルドを援用しながらやりくりしていくとの方針に変わりはありませんが時として三属性変換の、ロ万と他のよろづ(あるいは通常変換)の微妙な差異を反映した候補提示・選択の機微というものが如実にあらわれるケースも見逃せないところですので以下例を挙げて解説していきたいと思います。
簡単のために通常変換はN、イ万はイ、ロ万はロ、ハ万はハを頭につけて列挙していきますのでご留意のほどをお願いします。

<語構成の違いによる漢語二字熟語のよろづの違い>※一部兼任もありうる
Nイロ対応/ハ滞欧、イ傭兵/ロ用兵、Nロ保管/ハ補完、Nロ会食/ハ解職、Nロ解明/ハ改名、Nロ誘拐/ハ融解、イ記号/ハ揮毫、ロ裁決/ハ採血、イ分譲/ロ分乗

同音衝突をなんとかいなす為に苦し紛れで属性分けをした訳でありますが例えばさいけつにしてみれば裁き決する裁決も血を採るの採血も漢語語構成に則ったものがありますがこういうどちらも語構成を為す場合は動賓形であったり補語をとるタイプであったりする採血のほうが同じ意味の言葉を重ねる連合のタイプのものよりハ万になりやすい傾向が見てとれます。
さらにようへいのように傭った兵(修飾)と兵を用いる(動賓)こちらも語構成の熟語でありますが傭兵が名詞に帰属できるので滑り込み的に用兵がロ万に落ち着くところをみると用言型の熟語は本来的にはロ万になりたいものの競合熟語との場所争いの関係でイ万になったりハ万になったりするように、絶対的基底的振り分けがあるのではなくて競合との相対関係によって変わってくる性質というのがありこれだという決まりは一概にして言えません。
いろいろ使い分けはあるかとは思いますが用言として使われていれば--する、--される、--はします、などのサ変を伴って使われるパターンであるとかあるいは係り受け的には○○が--、○○に--、○○で--、語彙的には--を試みる、--を続ける、--内容、--目当て、--ぶりといったところでしょうか、前後の接続も見たうえで適切なひな形を当てはめていかなければなりませんし今割り振られた属性というのも例えば(--ぶり)に接続しても自然になる距離感のグループ・ハ万よりはロ万にしてもいいのかな…という膨大な経験則をどこまで反映できるのか
…といった注目レンジを広げていくプロセスの足場を固めるためにも個々の熟語、マイナーなものも含めて二字熟語の掌握網羅を進めていくことが欠かせない課題となっております。

さて二字熟語はくまなく収録するとの方針ではありますがそれでも出せない造語だとかは[代表変換]や[トランス音訓変換]などのビルド入力を駆使して編集していく方法論もあわせて使いたいところですし何より同音衝突選択を回避していくためには地道にユーザーの選択した熟語とその前後の接続フレーズを一体にしてメモリーする学習の効果が使い勝手に直結していくものであるといえるでしょう。
しかし半面、長尺複合語は故事成語・四字熟語等くらいでしたらよろづのラベル付けや前後接続フレーズ学習などもあるかとは思いますが念頭に置いている「臨時一語」「即席合成語」になってくるとよろづ付与もフレーズ用例学習もままなりませんので構文を見た上での候補割り付けやチャンクの語彙的カテゴリや成分や品詞としての性質判断は未知数のまま事を進めていかなければなりません。
これが「扱いを別のものとして考える」ゆえんでもあります。
例えば預金という熟語これを単体としてみれば、(預金を預けるのように裸でつかえない形を帯びていることを前提として)あくまで預金は動作概念であるものの「定期預金」になるとその動作性は薄れて実質名詞のように振る舞います。
一事が万事これが長尺複合語ともなれば単に既知熟語の延長としてよろづ付与・品詞付与をすれば済むというわけにはいかず複合組み合わせのその都度その都度のクラス変化が想定内には収まらないということが容易に推察できます。
中記の例のように二字熟語の語構成(二字複合語を次の六種類に下位分類できる)はよろづさばきに貢献的なデータを提供してきてくれてはいましたが四字熟語、またはそれ以上の長尺複合語も延長上として同様の(統語構造からみた)語構成といったものがあり構造と機能を分析的に読み解いてよろづ付与・構文解析に役立てる手もなくはないのですが、複合語の扱いの込み入った状況を考えるとこれはさすがに現実的ではなさそうです。
このへんの見取り図はいまだ咀嚼の途上でありまして朧げのまま描けてはいませんが、よろづの付与はあきらめておくとして前後の格助詞とかかる連語(○○となる、○○をおこなう、○○が求められる等々...)の外郭的情報・形態的情報をヒントに副作用の出なそうな範囲内で複合語チャンクを既知二字熟語チャンクに倣ったカタチで処理することができれば良いと思います。(単チャンク語とみなす)
とはいえ統語までは読みとれないにしても配置位置によって適切な候補を勘案するぐらいの芸当は求められるものでして、現行布いている三属性変換・ハ万(接頭辞接尾辞を含むワード)との守備範囲の微妙な重なりも踏まえつつその他の作用要件や傾向も洗って検証していかなくてはなりません。
さまざまな考慮要素がある中で少しでも見通しをつけるためにドン・キホーテ型にざっくり粗要素で集約してしまうと以下のようになります。

統語というよりは配置に注目した連接タイプについては次の資料が役立ちましたので一部引用してみます。

<国語辞典と四字熟語 ―辞書にのる語とのらない語―[中川秀太 2014]より>
なお、辞書に「接尾辞的」などの記載はない語でも、以下のようなものは、多くの四字熟語を生み出しており、造語力がある。
--一色(戦争一色) --格差(科学格差) --合戦(取材合戦) --気分(厭戦気分)
--規模(宇宙規模) --経験(軍隊経験) --主義(効率主義) --人生(作家人生)
--物質(化学物質) --方法(演出方法)

<-中略->

前部分については、
異常--(異常事態) 一斉--(一斉送信) 一般--(一般雑誌) 個別--(個別活動)
最終--(最終候補) 重要--(重要単語) 専門--(専門雑誌) 直接--(直接対話)
同時--(同時受賞) 特殊--(特殊能力) 有名--(有名作家) 有力--(有力企業)
臨時--(臨時閉店)

――生産力のある要素が配置され語のカラーを支配しているプレゼンスを持っているとは言えます。しかし念のためこれをひとチャンクで見た時に後続チャンクとの関係性・ふるまい上の役割の源泉としてどこまで寄与しているか、言い換えれば語としてのプロトタイプ性を発揮していると割り切れるものなのか、結局は個々の接続語彙の意味合いによって左右されるものだとは思いますが更なる見極めが求められるものだと思われます。
この例とは別に、「こうぎ」という複合語パーツをもつ複合語をいくつか考えてみますと、
--講義(遠隔講義) --抗議(道庁前抗議) --広義(×茫洋広義)
などのように講義は講義終了とかの場合でなければもっぱら末端部(--講義)に配置されやすい傾向を持っていますし、抗議は末端部(--抗議)であらわれるものと先頭部(抗議--)であらわれるものと半々ぐらいといったところでしょうか(講義殺到・抗議電話)。
そして最後の広義は連体修飾(第三形容詞的、--の○○の形で句を形成する)で使われるからでしょうか、裸で末端部(--広義)で使われることはありませんし不思議なことに先頭部(広義--)で使われることも稀です。
このように先頭志向なのか末端志向なのかあるいは両方兼具なのかの素性によって変換文字列に当てはめるパターンを使い分けなくてはなりません。
言語学でいう形態論では一般的に(日本語の名詞複合語には)、複合語パーツの役割分担として意味的・形態的要素を受け継ぐ「主要部」が存在し、例えば「青色確定申告」のプロトタイプを担う部分「申告」・主要部は大半の場合最も右方(後方)に位置する、とされています。(他方、左側要素は「修飾部」「補足部」)
しかし先程の「こうぎ」のさまざまなバリエーションの例を目の当たりにしますと形態論的な視点は今一度肩入れし過ぎず、根源的に語のもつ語彙背景の事情をもっと加味して精査していかなくてはならないと思います。
なぜなら「青色確定申告」にしてもちょっと末端に語を足して「青色確定申告納付」とかにしてしまうと主要部が土壇場でうっちゃられてしまい「右側主要部の規則」はリニアの入力文字ストリームからしてみれば解析確定にそぐわない類の性質のものでありあまりこの規則を軸にして物事を進められないな、という感触があるのです。
ここまでが粗要素のまず第一の要件、「複合語構成パーツが先頭志向なのか末尾志向なのか、また兼具するものはより弾力的に構文解析のプロセスにおいて特徴検知材料として判断に役立てる」という題目を立てました。

続く第二の要件は「語+語(語連結境界が独立)としての複合だけでなく、元は句構造・項構造をもったフレーズであったものが助詞省略や格関係叙述連結によって見かけ上逐次形成複合語のように生成されるものも同じまな板の上にのせて未知語解析を行い異質の構成規則でも併呑していける懐の深いチャンク解析を目指す」であります。
ちょっと抽象的な物言いになってしまいましたが駆け足で説明を進めていきますと、こちらも文書:複合語のタイポロジーと日本語の性質:「日本語は特殊でない」というけれど[影山太郎 2010]から2タイプの語形成トピックをかいつまんでとりあげます。

<形態的緊密性のテストでも「語」として判定される統語的複合語のうち2タイプ>
・S構造複合語
 a.学生が[エレベーター|使用]のときは
 b.飛行機が[成田空港|着陸]の際
 c.[ビル火災|発生]の場合は
・動作主複合語
 a.[国語研究所|主催]のシンポジウム
 b.[スピルバーグ監督|制作]の映画
 c.[プロカメラマン|撮影]のポートレート
 
※いずれも|以下述語/動詞を和語に置き換えようと試みても成立しない、接続要素が漢語のときにだけ許容/成立する特殊性が際立つ
※S構造複合語においては、「図書|貸し出し」のように複合動詞ならば一部和語でも成立する場合がある
※動作主複合語においては、「[母親作り]のケーキ」「[夏目漱石書き]の手紙」などのように「他動詞とその主語を複合させることはできない」という制約があるが(世界中の言語に共通して見られる普遍的法則として)
日本語の漢語で構成される複合語においては例外的に成り立ち格標示を持つ統語構造に直接対応する

…助詞抜きで連結された複合語は名詞要素+名詞要素みたいなものとは違い、先の「学生がエレベーターしよう」の例にしても「×エレベーター仕様」にしないためにも「使用」のもつ統語的複合を結語とする解釈を通常変換では第一義的なものとして確立したいというのがあります(エレベーター仕様については接辞のついたチャンクであるので三属性変換:ハ万で処理すればよい)。
なんだ、仕様にしても使用にしても形態上は抽象概念名詞/動作性名詞なのじゃないか…などと今さら品詞ベースで物事を言っている場合ではなくて統語上の役割や語彙的親密範疇などをより重く見て未知語に対峙していかなくてはなりません。
これとも関連の深そうなトピックとして、新聞・ニュース見出しで使われるフレーズもあわせてこの種の複合語構成の摂理を喚起するものであるので以下例をメモしておきます。

<ニュース見出しの助詞抜きフレーズの例>
感染再拡大懸念 3000億円融資要請 費用負担同意 再生エネ拡大 超美品最安値挑戦 今期電撃移籍
…ここまでが第二の要件です。結論としてはこういった助詞抜きで生成される複合語の可能性やそのとき結語になるであろう一連の語群を地道に収集・分析してこちらもやはり結語配置タイプに応じた適切な変換候補のデータを充実させていこうということであります。


…さて最後の第三の要件でありますが、こちらでは少し目先を変えてみまして音韻的特性に目を向けていきたいと思います。
日本語の漢音語の音韻パターンには規則性があり一般的には「日本漢字音は多くて2拍だが、その第2拍目に来れるのが『イウキクチツンしかない』」という法則があるのは広く知られるところであります。
この法則をさらに深く突っ込んで調べていきますと先人の提案した偉大な日本語入力方式:「M式キーボード入力」(森田正典)の入力仕様から漢語複合語入力に際しての理論的なエッセンスを得ることができます。

以下(日本語ワードプロセッサ用新入力方式:M式-コンピュータ博物館)より引用したいと思います。

日本語における漢字の音読みの5つのパターン

1) 可,気,苦,固のような単音で第2音が存在しない単母音型
2) 開,空,経,甲のように第2音が母音で,UまたはIで表音できる複合母音型
3) 漢,金,君,検,混のように第2音が「ん」で,Nで表音できる内音型
4) 格,菊,刻,策,色のように第2音が「く」,「き」で,Kで表音できるK型入声音
5) 活,吉,屈,決,骨のように第2音が「つ」,「ち」で,Tで表音できるT型入声音

上記の性質を利用して,1)の単母音用,A,I,U,E,Oの他に,2)のタイプ用に,Ai,Ii,Uu,Ei,Ou,3)のタイプ用に,An,In,Un,En,On,4)のタイプ用に,Ak,Ik,Uk,Ek,Ok,5)のタイプ用に,At,It,Ut,Et,Ot,の母音キーを設け,さらに,ひらがな入力専用の単母音キー,a,i,u,e,o を加えた. 
<---引用終わり--->

…これらは漢語複合語ならずとも単漢字で適合する法則ではあるのですが、この音韻パターンを持つ文字列が複数個連続して並ぶということになればそれは漢語複合語であると判定できる(可能性が濃厚である)ので未知語チャンクにこの判定を布くことで漢音複合語の音韻要素拾いの補強支援につながると考えております。
単に文全体を見て闇雲に音韻パターンを当てはめていくというのではなくて、局所的に当たりをつけてからそこに音韻パターン判定を適用するということでありますので限定的であればチャンクの分析も少しは実現可能性があるかと思います。
文解析においてすでに第一段階の「機能語トリートメント」のフィルターをくぐり抜けてきたことで構文素材として各々のチャンクはお手玉化(?)するとして、残る残留物として未知語チャンクが素性不明のままそれはそれで全体の文の中ではパーツ組み入れが存立している状態となっている…のでありますから文構造の見立て掌握は確保しつつも未知部分だけ局所的にチェックできるというのが大きな利点であります。
他にも音韻パターンを観察していきますと
・漢語音韻ではちゃ、ちゅ、ちょ などの拗音パーツも見られるが、「ちゃ」「ちょ」のみ漢音1パーツをなすことができる一方、「ちゅ」は「ちゅう」と複合母音型になるときのみ成立する音韻パターンがある
・「びゅう」(謬)、「にく」(肉)のように珍しい音韻パターンもあることにはあるが、「ぴゅう」「でょう」「びょく」「なく」「につ」「ゆん」などのパターンは認められない
・同じく「ざく」というパターンもあることにはあるが「阼」「筰」「鋜」等低頻度漢字であるのでこちらは通常の変換プロセスでは稀なものとして捨象しておいてもおおむねよく(単漢字変換でリスト候補が出せれば良い)、「朱雀」のざくに関わる変換だけに留意しておけば事足りる
・「脈管」(みゃっかん)、「客活」(きゃっかつ)、「十戒」(じっかい)、「玉壺」(ぎょっこ)のような詰まるときに形成される音韻パターンも漢語音のバリエーションとして考慮しなくてはならない
・逆に出てくるだけでこれはカタカナ語フレーズの断片であると判断できる音韻字音パターンがある(ミュやファのような音やー(長音)つづりの音、あるいはヴ行)

…M式入力仕様の分析だけでなくこれらの漢音/カタカナ語音韻パターン特性のフィルターを未知語処理に組み込んでやれば形態情報や統語語構成だけではなく音韻パターンの側面からも漢語文字列の扱いにおいて確度を高めることにつながると思います。
とはいえ3つの要件の中では異色の考慮ファクターであるのでプロセスのどの段階でこの処理を組みいれればよいのか、語構成や助詞抜き、先端末端配置などの「語と語の相互関係」をみるパースペクティブな方法論と音韻パターンだけを見るリテラルな方法論を併走させ得ることは可能なのか?といった疑問など解決すべき問題は山積しており未知語解析としての漢語複合語の扱いは今のところまだ整理できてはおりません。
この記事では未知語処理の棚卸しとしてこれらの課題があることをまず認識してとりあえず現状の材料としてこんなものがあるんだよ、ということを示すことができただけでまずは良しとします。

最後に再度漢語複合語処理の対処法の3つの粗要素をもういちどメモして記事のまとめとしたいと思います。

<漢語複合語の未知語処理:何を軸として解決していくか--3つの指針>
・複合語構成パーツが先頭志向なのか末尾志向なのかよく素性をみる
・助詞省略や統語的複合語も形態的複合語もおなじまな板にのせて複合語処理をする
・音韻特徴パターンの援用

<考察に役立った文書やサイト様>
・語構成から見た中日同形語[何宝年 2011]
・国語辞典と四字熟語 ―辞書にのる語とのらない語―[中川秀太 2014]
・複合語のタイポロジーと日本語の性質:「日本語は特殊でない」というけれど[影山太郎 2010]
・IPSJ Computer Museum コンピュータ博物館[http://museum.ipsj.or.jp/index.html]

 


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

新語・造語・未知語の入力上の待遇③ 文法機能語と和語

2020-04-12 | ジャンル横断的な問題

ここではまず複合語構成要素としての和語の存在について論じていき、それに加えてこの後の記事の漢語複合語に取りかかる前の地ならしとして文法機能語の解釈について掘り下げていきたいかと思います。
文法機能語なので必ずしも未知語複合語の関わりとは薄いところがあるかもしれませんが、解析に関わる未知フレーズが機能語がらみで出てくることも大いに考えられますので文章を統語的に理解するというプロセスのうえでも風通し良く議論の道筋をつけたいという意味においてもどうしても触れなくてはいけないところですのでどうぞお付き合いください。
和語と言ってもいにしえの大和言葉の使い方のような大仰なものではなくて現代文で普通に使われる基礎フレーズや複合語要素としての和語の存在に焦点を当ててその傾向や法則に少しでも迫っていければ良いかと思います。

まず和語の混じる複合語を何の気なしに思い浮かべると◆「レッズびいき」「おしどり棋士」みたいなところがあげられるでしょうか。これはシンプルに既知語+既知語→合成未知語の組み合わせですから表記には気を配りつつも漢語+漢語複合語やカタカナ+漢語複合語などと同様に処理していけば特に問題はないと思います。それに和語とは言っても生産力の高いパーツで付加されているので接頭辞・接尾辞入力操作の扱いの範疇でできることも助けになります。
◆「注文忘れ防止」「捧げもの絵」このケースは動詞活用形で少しニュアンスのついた和語が混ざっていますがどうやら複合語要素になるときには連用形の転成名詞化しているフォームを保っているのが特徴的ですから動詞検出/活用形の推定ができたのなら連用形だった場合の連接やりくりは名詞または複合語要素の連接ふるまいに捉え直して二語三語以上の複合語の時でも順次連結して語尾成分の接辞パーツとなめらかに接続できるよう解釈していければ良いかと思います。
◆「解放どころ」「添え物ばかり」このへんになってくると接辞というよりは統語構造においての機能(ペンタクラスタキーボードならイ万ロ万ハ万三属性)での役割変化も気になってくるところです。
--どころ、--ばかり、は確かに生産力パーツとしての形態を持ってはいるのですが例えば「ダイエットどころじゃない(文脈)」「人気のダイエットどころ(場所)」と構文での文法機能が異なってくるケースもあり、解析の助けとしてユーザーが三属性変換のよろづを選択することによって「ばね量り」/「バネばかり」のように区別することが役立つ場面もあるかもしれません。
さらに接辞や複合語だけにとどまらず◆「知識欲ゆえ」「中毒性たるや」「哀れ民草」みたいな例では副詞的、枕詞的、連体詞的?、など判断のつきづらいカテゴリではありますがこれらのパーツも確かに生産性の高い、つまり未知語の生まれやすい土壌を持つフレーズであります。
別口入力できる要素は一文字粒のモノでなかでも頻出のものだけに限られますので純に未知チャンクを複合語のカタマリと期待することはできずに必ず非レギュラー助詞や機能語、あるいは助動詞の活用変化の一部などが混入している場合にも備えなければなりませんので
ここまで段階的に典型的未知語から範疇不詳の未知語へと視点を移しつつ説明してきたのですがこのように(内容語でない)機能語を取り扱うということはまずそれらをひとチャンクの中から分離して複合語処理前段階のまな板を整えるフェイズが必要になってきます。
この分離フィルタリング中に文法構造に見通しをつけたのち接辞同様に複合語要素に組み込んでも良い文法語が浮上してきたのなら「分離からの再統合」を適切に行って先述の「ばかり」や「たるや」などを複合語解釈のラインに載せていきます。
これら一連の処理を本ブログでは「機能語トリートメント」と名付けて今後この言葉を援用して解説を進めていきたいと思います。
なおただいま記事展開しております「入力上の待遇①~⑧」の記事テーマのカタカナ語・ひらがな語・漢語複合語・接頭辞接尾辞...etcの各記事は複合語の取り扱いについてあれこれ考察していく際には、この「機能語トリートメント済み」の前提で話を進めていきたいのでどうぞよろしくお願いします。

機能語に関してさらに少し申し上げますと、先の例「中毒性たるや」の「たるや」に注目していきたいと思います。
このたるやには2つの入力法があり一つは助動詞[たり]の連体形に助詞[や]の付いたものとしてのものがあり、それとは別に[や]こそ別口助詞入力を添えるもののこのひとフレーズで連語チャンク化しているのもあってか厳密に別口入力[や]を要求するものでなく「たるや」をべたのひとかたまりで入力することを許容しています。
そのため別口付随でもべた入力のどちらでも使い分けに不自由がないようにするために三属性変換(+通常変換)のユーザー入力によってこれを選択できる機構を用意しています。
別口助詞付きの「たる[や]」の場合は機能語としての「たるや」(通常変換)の場合と「足るや」(ロ万)、「樽や」(イ万)の場合の3つの解釈があります。
かたやべた入力の「たるや」の場合はこちらも機能語(連語)としての「たるや」の場合と「樽屋」(イ万/ハ万兼務)の場合の2つの解釈があります。
どちらの場合であってもまず通常変換の機能語としての「たるや」は最上位判断で通常変換の基底を保持し、そこから特定の具体性を帯びる各種のよろづの受け皿は下位振り分けの三属性変換に委ねていきます。
このように機能語とのカラミのある複合語解釈では通常変換バイアスとの競合がにわかに浮上してきますが大抵の通常変換候補は機能語と結束しているものを優先的に提示していきますので
例えば通常変換で「貸そうとしない」と出てしまうところを複合語に解釈する「仮想都市内」に捉え直してほしい時には名詞解釈のイ万のキーを押すか接尾語「内」がついているので接辞モノ解釈のハ万のキーを押してユーザーの意図する複合語を選択していきます。(もっともこの例では別口入力の[と]が入っているので適切な例とは言えないのですが簡単のために導入させていただきましたご容赦ください(^^;))

さて前回の記事では結局未知語は基本カタカナにすればいいみたいなニュアンスで言っていましたが文法機能語は大和言葉ですのでうっかりカナにしてしまうことがないようしっかり検知していかなければいけません。
そのこともあってか事ここに至って「機能語トリートメント」という準備処理をしっかりこなしたとの確証をもって、ひとタスクを済ませてはじめて複合語解釈にいけるのだということを再認識しなければならないということです。
今はまだ解決策が固まってきてはいませんが、「樹木希林 直筆コメ寄せ心境」みたいなニュース見出しみたいに凝縮された複合語フレーズなどへもゆくゆくは対応できるようにどの語とどの語の接続を連接可能性として許容していくのか、その語彙性質、品詞・よろづ・活用などの抽象クラス、あるいは語頭/語尾での配置特性の有無などの条件をうまく整理して未知語の解釈さばきの方法論を確立していきたいと現在奮闘中のところであります。

最後に複合要素としての和語を語る上で外せないトピック、「複合語連濁」についても触れておかねばなりません。
日本語においては複合語後部要素初頭の清音が濁音に変化する現象が見られ、これを連濁といいます。
連濁は主に和語にだけ起こる現象で漢語や外来語との接続では基本は濁らないものされています。ホットゲーキ(ほっとげーき)であるとか開発計画(かいはつげいかく)などとは言わないのはいい例です。
ただし元は外来語であったとしても完全に馴染んでしまって日本語化された言葉では連濁を起こすものがいくつかあります。(株式会社かぶしきがいしゃ、いろはガルタなどの例)。
ちょっと規則が面倒なのですが、

・従属関係の複合語は連濁し得るが、先の語とあとの語が反意語や並列関係の場合は連濁しない(読み書き、飲み食い)
・あとの語に濁音がある場合は連濁しない(おおとかげ、*反例:なわばしご)
・先の語に濁音がある場合は連濁しない(永田、ハゲタカ、*反例:むぎばたけ)
・音象徴語(擬態語・擬音語)の場合は連濁しない(てとてと、こりこり)
・ただし同じ繰り返しでも複数/性状様相/強調の機能を持つ畳語の場合は必ず連濁する(懲り懲り、細々、端々)

などの法則があり、とはいえ慣用から機能形態由来までさまざまな例外があり現在においても漏れのない定義は整っていないのが現状であります。
未知語処理においては最初の項で触れた従属関係の複合語(<修飾・被修飾の関係>と<主語・述語の関係>を持つもの)が大きな課題となるところで、その下位ポイントとしておおとかげやハゲタカ例のようなところを修正事項として捉えていけばいいものと受け取っています。
未知語造語の語と語の関係(統語構造)にまで分け入って適切に変換候補をあて込むことは現状ではかなり難しく(特に次記事の漢語複合語になるとその難易度は想像もつかない)、構造理解を一部簡略化して接尾辞的な生産力の高い和語造語パーツに的を絞ってこれをおこない、
従来のIMEではあまり重視されてこなかった"連濁する方の接尾辞"を登録単語にくまなく収録することで少し強引ですが乗り切っていきたいと考えています。
なぜ従来のIMEでそういった辞の充実がなかったのか理由は定かではありませんが、おそらく既存の語との無用な衝突・混線を避ける為であっただろうと考えます。
しかしペンタクラスタキーボードでは通常変換で望む変換が出てこなかったとしても三属性変換へシフトして属性を絞っていくオルタナティブな救済手段が手厚く用意されているのと、そこからの学習登録の効果を加味すれば衝突も気にせず語彙資源を利用できますし
何よりも通常変換のバイアスがかかることで常に角度のついた一定のパターンに沿って変換候補へたどり着く導線が保証されているのが闇雲な混線を招きにくくなっていて、これは大きなアドバンテージだと自負しているところであります。
抽象的なことはともかく実際に役立ちそうな接辞要素を列挙してみますと

「おどり炊き」「学級づくり」「生悟り」「古豪揃い」「大阪住み」
「普段履き」「スキン替え」「センター帰り」「SNS断ち」
まれであるが接頭語例:「映えスポット」

などがアクセスしやすければ重宝しそうです。これは単に動詞の連用形を名詞扱いすればいいというものではなく、帰りには返りなど他の競合語に埋もれないように接辞要素を多分に意識した候補出しにするとともに連濁活用が基本活用の枠組みの中では十分に反映されないところを補う意味でも網羅的にパーツを収録していくというのは大変重要なことだと強調したいところであります。
また動詞ばかりでなく語幹を埋没させやすい形容詞一般の造語要素にももちろん適用させていくのが最善であると思います。こちらの例は

<接頭辞要素(形容詞)>
「旨シェフ」「塩握手会」「ゆる受験」「痛スマホ」「凄得クーポン」「甘デジ」「だる着」
<接尾辞要素(形容詞)>
「つれ安」「鬼強」「ふわ軽」「ブリ寒」「最薄」「修羅エモ」

などこちらもセールス広告やネット流行語などの場面で役立ちそうです。
形容詞の接辞使いには接頭語も割と多くみられるのが特徴かもしれません。
接辞要素を受け持つ三属性変換・ハ万の変換ではありますが、辞の意味成分からダイレクトにイ万・ロ万に飛ぶのもよし、一度ハ万を経由してからのイ万/ロ万への遷移を使って目的の未知語にたどり着くもよし、
単に接辞としてだけ見るのではなくそこに含まれるよろづ的傾向:安いなら安→様態属性のロ万、といったふうに形態を越えて語彙概念の味付けにもうまくはたらきかけることができれば目指す理想形へ一歩近づくことができるのではないでしょうか。
こうして見ると和語は漠然とひらがな文字列が並んでいるようなイメージでしたが広く訓読みのできるワードはそもそも漢字として存在しているものが数多くあるのでやはり「かな漢字変換」、漢字に変換するというプロセスが和語でも決して外すことのできない表記ケアなのだということを再認識させられました。
最後のほう、ちょっと番外で「エモい」なんてのも入っておりますがこれは外来語由来ではあるものの「-い」がついて形容詞化された新語としての接尾語要素ですので運用としてはもはや日本語和語の範疇で処理しても良さそうでもあり、このようなカナ/横文字+[い]の形の造語なども定着度によっては接辞要素として処理することもありうるかと思います。

 


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

新語・造語・未知語の入力上の待遇② 語尾別口系・多様な終助詞

2020-03-30 | ジャンル横断的な問題

未知語用言全般、別口入力での様々な派生があることについては①番目の記事でざっとは触れていきましたが、
今ここで一捻り「ビンジする」「ビンジる」「ビンジだ」「ビンジです」「ビンジな」「ビンジである」「ビンジになる」「ビンジとなる」等々
例として「ビンジ」(=ドラマなどを一気見する事)という未知語があったとしてこれを無理やりいろんなバリエーションでやってみました。
ビンジという語彙は置いておいて語尾機能派生的な受け皿として別口入力のマーキングは各種の手段が多様にあることを先の記事で申し上げたところです。
このあたりは過去記事
るてしでsでしてる:基本動詞のエッセンスは大体揃った - P突堤2
あたりでも背景も含めて概観しており、またあわせてテ形の助詞の「ビンジて」などといったケースもあるかどうかはわかりませんがカタチとしては対応できるということを申しておきます。
ただし[○R][×r]のル形動詞別口入力はググる、みたいに「カナ語幹+る」の表記にしたい新語造語類のときに特にこれを使うということで必ずしもレギュラーのものではなく渡る・起こる、みたいに通常動詞の場合はべたかな入力でマーキングを伴わずに入力していきます。(してもいいのですがマーキングするとワタる・オコるみたいに語幹カナのほうが候補優先されます)
同様にテ形助詞[て]の別口入力でも「カナ語幹+て」あるいは「カナ語幹+って」の表記にしたい新語造語のときに厳にマーキングを必要としますがこれも通常動詞のときには不要です。
しかしながらここが躓きやすいところなのですが主にサ変動詞まわりで使用する[便利キー:し]のときだけはそのような使い分けはなく連用中止形「し」の場合だけにとどまらす「[し]-ない」「[し]-よう」「[し]-ます」「[し]-た」「[し]-たい」「[し]-ろ」「[し]-なさい」などの「し」の絡む活用形一般とあとは接続助詞としての「し」(分かってても言わないし、のし)、なども含めて
操作が煩雑ではありますがカナ語幹のあるなしに関わらず義務的にマーキングを要求していきますのでどうかご理解いただきたいと思います。
それというのも「し」はとりわけ誤変換の誘因となる音素ですから[便利キー:し]として文法上の素性がわかるチャンスを活用しない手はないためべたかなの「し」の場合と区別をするという意味においてもどうしても必要になってくるのです。
一応「しない」「した」「したい」などの各ケースをクローズアップしてみると「し内容」「し他方」「し対応」などのくだりでの判別困難性も浮上してくるのでこちらに関しては精査が求められるのでまだまだ吟味が必要になってくるところではあります。

用言全般については一通り総ざらえができましたがこれではまだ完全ではなくそれに続く問題として大きなものにくだけた口語表現の場合と各種方言、それに古語・古典表現が残っています。
口語表現であると本来のレギュラーの複合助詞「では」が「じゃ」になったりテ形の入力でも「ては」が「ちゃ」になったり「てしまった」が「ちゃった」になったりとマーキングが挟める機会を失ってべたかなの字面の文字列から助詞部分を補完して組み立てをしていかなくてはなりません。
未知語であっても単に名詞チャンク部分だけであるならまだ打つ手もありそうなのですが、別口助詞入力をあまねく整備したのがかえってネックになってこういった文法上の骨組みを担う機能語たちもが置き換えのできないべた字面になってしまうと今まで当たり前のようにできていたチャンク解析のプロセスがにわかに不透明になってしまい大変に具合が悪いです。
愚直に各変化派生をしらみつぶしに網羅していくのも悪くないですがまず見落としてはならないのはカタチは違うものの同じ文法機能のパーツが、かたや標準別口マーキングできる種のものと別口伴わずべた字面で表すしかないものとで扱いが分断されてしまっていてこれが統一的な構文解析に要らぬ混乱を招いてしまうリスクをはらんでいるということです。
助詞に限らず「まだやる気出ん」「あざーっす」「うわこれ古っ」これらは短縮表現にからむ用言変化ではありますが例えば「あざーっす」を個別に単語登録しておけばいいという問題ではなくて「ナイ形の縮約」「敬語の口語縮約」「形容詞語尾の促音縮約」などの文法システム的に弾力的に対応できるかどうかの裾野の広い問題なのです。
こうした口語表現の扱いに別口入力のシステム側からできる手立ては今のところありません。
なのでべたかなでチャンク癒着した文字列の中から名詞チャンクと収束・用言チャンクをうまく分解していくことが求められます。それも別口入力を前提とした解析システムの枠組みの中で副作用を起こさないようにハイブリッドに処理していかなければなりません。
今のところ「は・が・を・に・と・の・も・へ・や・な」等は口語でも有効に別口機能はしそうですが、口語は何より助詞抜きであるとか「気ぃ抜くなよ」みたいに<助詞抜き×小書き『ぁ』行音引き>のミックスがあったりするので難易度は一段も二段も高くなっていきます。

方言のバリエーションに関しても同様の困難性が立ちはだかります。○○地方方言・話しことば表現モードみたいに細分化したモード切り替えをおこなったりできるIMEも中にはありますができれば標準状態のままで特に切り替えを意識することなく、まあ細かいところまでは無理でしょうけれど目につく頻出表現のところだけで妥協して限定的にでもおこなえれば多くを望まず御の字であると考えます。
都合が良すぎる楽観性かもしれませんができないところは素直に認めて当該部分の変換では連文節変換をしないで細切れに切ってべたかなでやっていくであるとか漢字部分の送りキワの微修正に「近視眼的粒度」を活用して細々編集していくであるとかの代替策で乗り切っていくしかないでしょうね。
なかなか要領を得ない見解しか出せなくて頼りないところではあるのですが別口入力の助詞の区切りが方言込みでも活きて稼働できているのであればそこをテコにしてオールべたかな文ノーヒントよりかはいくらかマシになっていることを期待するのみであります。

古典古語のほうも有効な対策を見いだせておりませんが厄介なことに古典表現における助詞と現代文における助詞が共通のものであったとしてもその用法には微妙な違いのあるケースがあり、
例えば同じ「の」でも同格「いと清げなる僧の、黄なる地の袈裟着たるが来て…」であるとか「が」の連体修飾用法「これひとつやは君が憂きふし」などがあり従来の別口入力「の」「が」をはじめとしてその他混線してきそうな要因が多くありそれがもたらす副作用は未知数でありますのでなおさらこの問題は根深いと言えるでしょう。
さらに言えば「だに」「もがな」のように一見すると「だ+に」「も+が+な」みたいに複合助詞入力と思わされる要素もありますのでこちらにも注意が必要であります。これらはひとかたまりとしてべたの文字列として処理していきます。
総じて言えば古典表現には方言などとはまた違って、標準の文解釈時に現代文の読みと古典文の読みとがツートラックで解析を同居させにくい事情もあるのでどちらかをとらねばならないと選択を迫られるのでしたらこれは現代文の解釈を取るより仕方ありません。なかなか歯がゆいところです。

方言・古語以前に日本語にはさまざまなニュアンスを付加する多様な終助詞が控えております。これらはキャラ語尾のような特殊なものはひとまず置いておくにしても普段使いの欠かせない表現骨格となってきており、もはや方言や古語のように一段別処理を施せばよい…などと簡単にはいかない事情をはらんでおります。
それだけ標準状態における機能語判定の不可避性が食い込んでいるものだとの認識をもって処理に当たらなければなりません。
別口入力パーツの中には、格助詞としてだけではなくて終助詞としての機能を兼任しているものもいくつかみられるのでここでひとつ整理して列挙していきたいと思います。

<文脈によって終助詞としても認識する別口入力パーツの例>
か…またお前か
が…この、おたんこなすが
に…悔しかっただろうに
と…しーらないっと
の…家帰って見るの
や…ちょっとは気ぃ使えや
か…図星だったか
な…ちょっと待っててな
て…後で食べるって

これらはまだ性質のいいほうで、終助詞=文の末端部 であることが分かって配置されているのがマーキングとも重なるわかりやすい使われ方であります。
文末以外だと後続へは引用の「と」「て」との接続、同様に「など」「なんて」「ぐらい」「しか」など副助詞的に展開されるものなども終助詞とセットで出てくるかもしれませんがマーキングがあるだけ助かりますので文の収束遂行も見届けたうえで構文全体の把握も結んでいけます。
問題なのはマーキングされていない自由終助詞、別口入力以外の終助詞要素であります。
未知語ではないかもしれないほど有名ですが代表的終助詞「よ」と「ね」の検出も単文字ということもあって意外に手こずる可能性があるかもしれません。
こんな調子でいくとちょっと個性的な未知終助詞、例えば「ぽ」とかのようなものをはじめとして理論的にはあらゆる単モーラが終助詞になる可能性を秘めていますので気が抜けそうにありません。
二文字以上の終助詞であっても未知は未知ですからなにか特徴的な接続要件であるとか活用要件であるとか手掛かりになりそうなものを掴むために掘り下げていきますと
まず終助詞ではありませんが語形変化の顕著な例として未然形からの接続、ナイ形の話さない→話さ[ねー]の変化があります。
他の活用では連用形は古語では(き・けり・つ・ぬ・たり(完了)・けむ・たし)などの助動詞がついたりしますが現代文では食べたいが食べてーになるくらいで連用形に終助詞相当のものがくるのはあまり見られません。
終止形(基本形)、これは別口入力のパーツであろうと自由パーツであろうとあらゆる終助詞のメイン活躍舞台であり口語・古典表現に関わらず既知未知のものが接続します。
終止形からは、特徴的なキャラ語尾である「--でござる」「--でゲソ」など断定の助動詞「だ」の連用形「で」+終動詞のパターンの一群もみられます。
ちょっとクセの強いところからだと、話すデス、やめるクポ、行くのん? などのキャラ語尾とも親和性が強くこちらは「で」を挟みませんが終止形接続の一角を占めるもう一パターンであると言えます。
また先程の未然形の時には触れていませんでしたが未然形には(う、よう)の語形を紐解くときに微妙な差異があります。例えば「読むべ」「暮れるべ」などのようにカタチこそ終止形+べにはなっていますが結果的に推量・意志の助動詞相当の未然形接続に代替しているものもあり、終助詞のタイプによっては接続する活用形を編配置するケースもまだいろいろありそうです。
未然形、連用形、終止形ときて今度は口語表現で特徴的なのが仮定形です。
仮定形からの接続には「明日になれば/話せば/言えば」→「なりゃあ/話しゃあ/言やあ」などかなり崩れているのもあり特に「言やあ」の変化バリエーションは標準形からかなりかけ離れているので語形変化に柔軟についていってくれれば良いのですが、なにしろ解析メカニズムの方針がまだ固まっていないのでここでは例を挙げただけでとどめておきます。
いずれにせよ莫大な未知語の可能性のある終助詞への対策は難航しそうですがここでの試行錯誤で各活用形からの接続パターンをうまく整理して汎用的に終助詞全般に対応できる枠組みを作っていければなりません。
これは今後の課題ではありますが今回の用言全般、あるいは終助詞にしましても構文解析的には文の収束、なにがしかの叙述要素を漏らさず検知して組み立てとして文構造の把握が文字通り"消化"できるように、
また文章の末端において"未消化"の異物(未知語)が居心地悪く残留してしまうことの無いよう不断の注意を払うことが肝要であると思います。


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする