P突堤2

「でにをは」別口入力・三属性の変換による日本語入力 - ペンタクラスタキーボードのコンセプト解説

初めて訪問された方へ

P突堤2へようこそ!
キーボードの配列・機能の説明はこちらです。
お知らせや補足事項なども表示してあります。

誤変換を起こさないために--文の解析において重要なのは副詞

2018-11-28 | 文解析は副詞が鍵
長らく言及することを避けていた変換メカニズムの根本、ペンタクラスタキーボードにおける解析エンジンは実態としてどのように動いているのか…についてですが、なかなか至りませんでした。
ここを説明するためにまずかな漢字変換の基本的な仕組みとして代表的な「最長一致法」と「コスト最小法」について皆さんに資料をお見せしてから考察に入りたかったのですが、
なかなかうまい例文が思い浮かばず、ちょっと時間が取れなくてというのもあって先延ばしにしていました。
もっとも、自分は素人ですからちゃんとしたプログラミング知識・文法知識ももたないままでおぼろげながらの骨子をうまく言語化できなくて必然的に手を出せずじまいでいた、というのが実情ではありますが(^^;)

…ですがそろそろ重い腰を上げてこの難題にも着手していきたいかと思います。
もちろん練り込み不足は否めず論旨も稚拙だとは思うのですが、まずはアウトプットを自分に課してこのトピックを継続的に追っていきたいということでここに掲げる次第であります。
そしてこれに伴って新カテゴリ「文解析は副詞が鍵」を追加したいと思います。
まだ全体像が見えていないので、うかつに「基本解析アルゴリズム」なんて大仰なカテゴリ名はつけられませんから、とっかかりとして着目した副詞との関わりをそのままにテーマに据えてみたという次第です。


さて、ペンタクラスタキーボードでは「でにをは別口入力」で助詞の境目があらかじめマーキングされているのでおおかたの名詞チャンクの目星はつきやすく(未知語であるとしても)、
文の構成素材はなんにせよまな板の上に乗せることができるので、あとは叙述がどうなっているのか、接続詞やモダリティ・アスペクトの組み立てをどうとらえるかのタスクに焦点を当てて解析を進めていけばよい、という筋道が自ずから見えてきます。
そこでにわかに重要性を帯びてくるのが、叙述に深いかかわりのある副詞というわけです。
名詞述語文、第三形容詞ときて、新たに文末名詞や体言締め文(人魚構文)なども知るようになり一大勢力となった叙述部品。
これらを隅々まで精緻にルール化するのは至難であるので、それらを際立たせる意味ではたらく副詞/副詞句/副詞節を述定部品の重要なシグナルと捉え外堀から攻める意味で副詞的なものを追求していく方針を立てました。
文の素材(体言類)、述定部品(用言類)に次ぐ第三勢力でありますが文の収束を方向付ける文字通りキャスティングボートを握る存在であるということに着目して、これを文解析においてもれなく検出することでまずは構文解析の足掛かりにしようという目論見であります。
文の素材となる要素(体言)にはたいてい別口入力がくっついておりますし、述定部品は活用があり連体形なら体言の前、連用形なら後に続くのは用言や助動詞、未然形は「--ない」や「--よう」の前に来るなど配置と活用の特徴から存在を把握できるのですが、
副詞は無活用なものも多く前後脈絡の判然としない配置のもの(機能/昨日・欠航/結構・糖分/当分・一杯/いっぱい)や時には何か特定の話題について言っているものと区別しづらいもの(ガンとして/頑として・余りに/あまりに・以外に/意外に・用は/要は・檻から/おりから)
など不確定要素の多い"要注意人物"であることが多いのでまずはこの逸脱の源を押さえておくことが肝要であります。

一筋縄ではいかないことは重々承知してはおりますが、楽観的希望をもってイメージを膨らましてみますと、解析が上首尾にいくなら
副詞の「すごい」はひらがなで、形容詞の「凄い」は漢字で…などと表記を使い分けるような芸当や「予約後ホテルに向かう」(避「予約語」)みたいに接尾辞化している副詞なども文での登場配置から適切に推し量ってくれるような機能を目指しています。
特に活用もなく助詞もつかない漢語系の副詞には手を焼きそうですので「機能ラーメンを食べた」みたいにいきなり「機能」がでるのは不自然であるとわからせるにはどうすればいいか、そしてそれなら「機能」が自然に使われているときの諸条件は何か、
「○○機能」みたいに接尾語パーツで連接するときや「ブルーレイレコーダー[の]機能」や「機能[を]比較する」みたいに助詞との関わり方をヒントに「ここにいていい確度」を比較判断することでうまくメカニズムを構築できればよいと思っています。
まだ試行錯誤中でベースラインすら見えてきてはいませんがこのカテゴリでの考察で文法的・語彙的・コロケーション的などさまざまな視点から掘っていこうかと思っております。
とりあえずモデルを考えては壊し、考えては壊し、とプロトタイプのできるところまで煮詰めていければ何か輪郭がつかめるハズですし、良い意味で現在進行形のライブ感覚でアイデアをひりだすのが自分の流儀というか、定めですね。

とにかくペンタクラスタキーボードの構文解析においては別口入力のおかげで品詞推定をするコストが大幅に軽減されますので品詞接続規則にもとづいて接続可能性を解析するという常道も見直さなくてはいけません。
品詞から語彙レベルの接続可能性をベースに置くべきなのか、あるいはこれまでは単文字の助詞が邪魔してワード切り出しがそもそも困難だったのでむしろ品詞志向の統語特性分析が活きるのはこれからなのだ、といった議論も出てくるかと思います。
それにくわえて、文の生成というのは経時的・シーケンシャルな有りようで成り立っているので、副詞部分に差しかかった時に発話の調子が上がるなどといったニュアンスを汲み取っていくのを活かせないかなど新しい試みを混ぜていこうかなと思っています。いわば、音韻論からの見地です。
…と、このように見境なく風呂敷を広げてしまいましたが、ペンタクラスタキーボード、別口入力を前提としたフレームワークの中での最適形は何かということを忌憚なく探っていきたいと思いますのでよろしくお願いします。

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

名詞というものは語性のゆれがある

2018-11-27 | にほんごトピック
今回の記事は名詞が本来の名詞以外の機能を発揮するさまざまな例についてのイントロダクションです。
[日本語の品詞体系とその周辺 村木新次郎 著 - ひつじ書房]から抜粋します。

名詞らしい名詞、あるいは典型的な名詞とは、以下の特徴を持つものであると規定できる。
① 語彙的意味をもっている。
② 補語になりうる。格の体系をそなえている。
③ 規定成分を受けることができる。

…以上が名詞らしい名詞であり、これらの特徴のいずれかを欠くものは、名詞性をうしなっているといえる。…とあります。

これらの定義から逸脱し、辞書では名詞扱いされてはいますが、補語としての用法、すなわち、「-が」や「-を」をしたがえて主語や目的語になることはないといった、即ち形容詞的な性質を持つことが本質的なものが見出されています。
その一翼を担う村木新次郎氏の提唱する第三形容詞には、
◆必須の・特製の・厚手の・まやかしの・ジリ貧の・がら空きの・不承不承の
などがあり、主に連体用法(規定用法-受ける側でなく規定する側)で用いられています。確かにこれらの言葉は名詞とは認めづらいものばかりです。
ただしこれらの考察の周辺には第二形容詞と兼務するもの(ナノ形容詞)があったりするなど領域のまたがる様相も帯びており第三形容詞の要件も見極めつつ複眼的に捉えることが肝要だといえるでしょう。
さらには規定用法ばかりでなくシンプルに述語用法のもの(例:互角だった)や連用修飾(例:抜群に優秀でもない限り)などもあり(広義の)形容詞のもつ諸特徴も念頭に置きながら押さえておく必要があります。
ただ局所的に見たとき名詞であったとしても構文の中での機能を重視することで見えてくるものもあり、こうして新しい範疇が提案されるものうなずける話です。


次にその述語名詞としての性格から単に同値・包摂(何は何だ)としての構造にとどまらない特性をもっているものとして
新屋映子氏の「文末名詞」と角田太作氏の「人魚構文」を採り上げていこうと思います。
まずこの種の概念を最初に取り上げた新屋(1989) 「“文末名詞”について」のあらましですが

連体部を必須とし、コピュラを伴って文末に位置し、主語と同値または包含関係にない名詞を「文末名詞」と名付け・・・

とあり、以下のような例文があります。
・川田君はすなおで朗らかな性格です。
・梓川は、この前の春の時とは少し異なった感じだった。
・平岡はあまりにこの返事の冷淡なのに驚いた様子であった。

これらは、連体修飾の部分を必須としており(つまり非自立語)これを取り去ってしまうと次のように成り立たない文になってしまいます。
・川田君は性格です
・梓川は感じだった
・平岡は様子であった

つまり文末名詞が連体部と一体になった被修飾部として機能していることがわかります。
この文末名詞は実質的意味が薄れてはたらく形式名詞的な性格も帯びており内容的な輪郭を連体部に預けた形でそれぞれ文末名詞の語彙的意味に従ってニュアンス付されており主観、説明、アスペクト、伝聞などを表すモーダルな成分に近づいているのである…と考察しています。
私の咀嚼した見解ではこれは同値・包摂の「何は何だ」関係のような等価関係の図式とは異なり、実質的もりこみの集約を文末名詞一点に受けて何か進展性の方向付けを纏っているかのようなはたらきをしている(ちょっと独特の言い方になってしまってスイマセン)、と捉えました。
いずれにせよ川田君=性格 とイコールにならないことが大きな特徴です。
さらに新屋氏は『形式名詞の「ノ」「ハズ」などが文末にきて助動詞的な機能をもつ事はよく知られているが、文末名詞はこれらより実質的な意味を有しながら、文末に位置して相似た働きを持つ。いわば名詞と助動詞の両域にまたがる、あるいはその境界域にある語群と考えることができるのではないだろうか。』
とも言及しており、語彙性を保持する一方で機能的に文法化した助動詞との類似点を見出しているのであります。


さてこちらも関連深い一説として取り上げなくてはならないトピックとして角田太作氏の「人魚構文」があります。
これは[節]+名詞+だ の構造をもつ構文で

・[太郎は明日、名古屋に行く]予定です。
・[太郎は今本を読んでいる]ところだ。
・[外では雨は降っている]模様だ。

という例が挙げられており先述の文末名詞の考えと同様に、太郎=予定ではないのはもとより、[節]部分と名詞が一体化・文法化して複合的はたらきをしているとみることができます。
この種の文はよく考えると奇妙で「前半は動詞述語文などと同じであり、後半が名詞述語文と同じである。まるで、人魚のようだ」と評して「人魚構文」と名付けました。
[節]に現れるものには(a)動詞述語節(b)名詞述語節(c)形容詞述語節(d)形容動詞述語節 があり、

(a)*[太郎は名古屋へ行く]予定だ。
(b)[明夫は天才である]つもりだ。
(c)[明夫は明るい]性格だ。
(d)[明夫は元気な]表情だ。 (※連体形であることに注意)

などそれぞれさまざまな述語が先行します。
また、これを受ける名詞には

  意志、予定、計画、魂胆、段取り、見込み、手筈
  感じ、思い、覚悟
  状況、結果、模様、気配(証拠的?エビデンシャル)
  印象
  習慣
  性格、性質
  役目、掟、運命
  体の特徴、表情、口ぶり、体格
  構造、仕組み、システム、スタイル
  時間、前後関係、途中
  語り手の述べ方、別の角度:話、具合、顛末、塩梅
  文体的効果:次第
  形式名詞:つもり、はず、わけ、もの、こと、ところ(アスペクト)、ほう
  助動詞・副助詞をあえて抽出する:よう、そう、(ふう)、(ばかり)、(らしい)

などさまざまあり、新屋氏も先んじて相通じるような語彙分類を立てています。(詳細は割愛します)
特に形式名詞の場合は、名詞の元々の意味と人魚構文が持つ意味・働きの違いが著しいといったことがみられ、文法化に伴ってモーダルなはたらきの機能側面を有したといえます。
(余談ですが人魚構文は世界的に見ても面白い対象であり、日本語以外ではアイヌ語、朝鮮語、中国語、モンゴル語、サハ語(シベリア)、ビルマ蕎、ネワール語(ネパール)、タガログ語(フィリピン)、ヒンディ一語(インド)など約20の言語で人魚構文が確認されたといいいます。東アジア以外ではエチオピアのシダーマ語にもみられるということです。)


長々となってしまいましたがここまでの話をまとめますと

・主に規定成分として形容詞的にはたらく「第三形容詞」
・文末にあって全体として述定に深くかかわっている(ときに助動詞的な性格をもつ)「文末名詞」
・文の前半と後半での異種同居のねじれ(さまざまな用言と名詞文の結合)をもつ「人魚構文」

のように典型的な名詞としてではない越境性をもっているものがあることがわかりました。
統語的にも語彙的にもある種の特異性をもっているばかりでなく、文末要素あるいは前要素であるなど配置的にも概して自由であり、
名詞というものが既存の確立された形容詞性や述語性にいつでも成り代われる機能をもつのだのだという変幻自在の片鱗を見せつけられたのかのようです。
名詞とはたえず語性の揺れ動く存在で、自立性があるというよりもむしろ構文全体から見て自分のポジションを決めるべく抜け目なく立ちまわる日和見主義者に見えてきてしまいます。

はじめは品詞の帰趨に着目し、動詞の複合物あるいは文法化された助動詞とする見方を経て、個々の用例の持つ語彙背景の広がりにまで関心の範囲が広がってきました。
機会があれば言語を俯瞰する視点でスケールを大きく…概念を意識定着化させるプロセスとしてのメタファー・プロトタイプ・メトニミーについて…認知言語学的な視点なんかもどっしりとやりたいものですね。

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

誤打鍵自動修正機能の活用も視野に入れて

2018-11-02 | ジャンル横断的な問題
タイピング時にはミススペル・誤打鍵がつきものですがすでに先行技術ではスペルチェッカ・コレクタなどの実用化も見られます。
日本語入力における誤打鍵修正の可能性については、
未知語の復元 - 誤打鍵特性利用による語の絞り込み効果について(野田雄三 1994)
で詳しく解説されておりますが、今回はこの文書を参考にして記事をまとめていきたいかと思います。

まず意図しない誤打鍵のうち最も多くのものは横隣接の間違えという配置の物理的な要因によるものが多いのではないでしょうか。
前提として英語QWERTY配列での誤打鍵を考える上において、

・余計な一文字の挿入
・足りない一文字の欠落
・一文字の他の文字での置換
・隣接文字の交換(順序入れ替わり)

などがあるかとは思いますが、ペンタクラスタキーボードの議論では簡単のためにこれらは検出対象には含めず、もっぱら
<同一クラスタキー内での物理的隣接文字の置換>
にだけに的を絞ってオートコレクトを作動させるときについて考察していきたいと思います。
つまり、「たちつてと」なら「たちつてと」の同行内(同じクラスタキー)での打鍵間違えを修正する(「た」を「ち」にするなど)機能についてであります。
5角形のクラスタに、同行の文字を集積させたこのキーボードに則した最適形を探っていこうというわけです。

QWERTY配列での横隣接では[i-o]母音の隣接や[s-d]子音の隣接などがありますが、それに加えて[k-l]のようにlが小書き文字の始動要因となる厄介な隣接もあって概してまとまりがなく複雑なものとなっています。
ですので日本語入力環境としては誤打鍵修正機能の道筋はなかなか現実味に乏しいものでした。
しかしペンタクラスタキーボード配列では同行クラスタ隣接で完結しているので見通しがつきやすくかな入力の発展形で80種近くと多くのかなキーがあるので分別性も高く復元データ参照も効率的にできるのではないでしょうか。
いよいよ日本語入力での誤打鍵自動修正機能も現実性を帯びてくる段階に入ったといえます。

もちろん5角形のクラスタキーの押下機構をどうするのかという問題は根本的にありますがそれはさておきクラスタキーの打鍵特性を事細かに考察していくことでソフトウェア的な突破口を求めることはできます。
まず五角形の形から分析しますとi段e段のようにクラスタの外側にあるもの同士とu段のように内側にあるものとではミスタイプ交錯することにしては若干分離しており混鍵する可能性は少ないのではないかという推測があります。
また「あ段」はキートップにあるので比較的適意の打鍵である確率が高いのではないかという目算があるのも同様です。
また「かかく(価格)」「かくく(各区)」のように連続打鍵部分(かか、くく)はFix度が高いという運指の癖もヒントになるので候補削減に活用できるかと思います。
このような打鍵特性をうまく盛り込んで復元語の候補をスリム化することができれば負荷を最低限に抑えることができるのではないでしょうか。

でにをは別口入力でお膳立ては整っているので欲を言えばイディオムのつながりや文脈解析みたいなものまで判断材料にできれば可能性は広がってくるかと思います。
特に短い2文字3文字の単語の誤打鍵復元は困難であるので「運がいい」「縁がある」「韻を踏む」のように前後のつながりをスコープに入れられれば絞りやすくなり弱点も克服できます。
ここだけでも充実させれば効果は大だと思うのです。
でにをは別口入力を含んだ一連の文章は細切れ変換ではなくひとまとめ変換がペンタクラスタキーボードでは推奨されているのでより全体像をつかんだ文脈解析が活躍できる素地は十分あります。
もちろん別口入力があることでやっかいな一文字助詞はほぼすべて弁別してあるのでわずかな文字列であったとしても混線候補懸念は最低限避けられます。


このようにまだ思索の段階ですが条件は整いつつあります。
「なんとも使い勝手が悪そうなキーの配置だ」と苦言を呈されることもあったこのキーボードの配置ですが、これらの策で少しでもそのイメージを払拭できれば良いなと思います。
実際に動作させるには候補提示の負荷との兼ね合いが読めないところではありますが今の技術で何とか克服できないかと淡い期待を抱いています。
なにより五角形のキーに同行を集積しているおかげで配列上覚えなくてはいけない単位は実質16個+α(でにをはキーは別)ですし、愚直に「あいうえお」が並んでいる構成配置にするのはこの形そのものが欲する必然のわかりやすさですからそれを活かす手段はいかなるものでも取り入れたいと思っています。

あと補足的には盤面下部の「でにをはキー群」の領域のキーは誤打鍵修正対象には考えてはおりませんが、それならば少しキーが小さいのではないのか…という懸念もありましたので、
こちらは物理的に各キー(丸型四角形)を均等に大きくしてしまえば良い…とも考えております。
不便なりにもアイデアは出てくるもので、持って生まれたカタチの個性をそのままにいいところを伸ばしていけばいろんな知恵が出てくるだと信じてこれからも検討を続けていきたいです。

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする