「かな漢字変換の一方法.pdf 牧野寛 勝部康人 木澤誠 1977」
という文書があります。
重要なところを抜粋すると
---------------------------------------------------------------
2.自立語付属語分かち書き
現在までに報告されている仮名漢字変換は、識別のための特殊文字(制御記号)を挿入せねばならないという不便さを伴い、使用者に少なからず負担を強いる結果となっている。
仮名漢字変換は仮名入力文の形式と大いに関係し、これは仮名漢字変換システムにおける打鍵速度の差、変換の正確さの差となって現われてくる。
ここで、べた書きを含めて従来用いられてきた分かち書きの方法を以下の1)~5)にまとめると、
1)空白****を全く用いないいわゆるべた書き
2)恣意的に空白を挿入する分かち書き
…最小の区切り単位は文節とし、複数個の文節が連続することを許した分かち書き
3)文節分かち書き
…文節単位ごとに空白が挿入される分かち書き
4)単語分かち書き
…単語ごとに空白が挿入される分かち書き
5)文字種分かち書き
…文字種ごとに空白が挿入される分かち書き
などが挙げられる。1),2),3)及び5)のそれぞれは仮名漢字変換が必要とする部分の抽出に難点があり、4)は入力規則が複雑となる。
このため筆者らは次のような分かち書き方法を提案する。
6)自立語付属語分かち書き
この規則は自立語**と付属語***との間に空白を挿入するという原則で示される。
但し、2個以上の自立語が連続し、それらが1語となって意味を成す場合以外は、自立語間に空白を挿入するという規則を含んだ分かち書きの方法である。
Fig.1に上記の1)~6)に対応した例を示す。
自立語付属語分かち書きを用いる仮名漢字変換の利点は以下にまとめることができる。
a)入力規則が簡単であるから、自立語か付属語かの区別さえつけばよいので、正確な文法知識を要求せずオペレータの負担が軽い。
b)かな漢字変換を要する部分の抽出が比較的容易である。
c)付属語の性質すなわち付属語によって与えられる自立語の品詞情報を用いることができる。
-----------------------------------------------------------------------
となっています。(抜粋)
この文書自体は後から知ったことでありますが拙ブログで提案している「でにをは別口入力」に通ずるものがあります。
文/単語の切り分け、特に分かち書きの問題意識からスタートする、人間の介在する入力のプロセスとしてのかな漢字入力へのアプローチの源流は
すでに1977(46年前)の時点で指摘されていたという事であります。
しかし自立語と付属語の境界のたびに空白を挿入するという作業も煩雑ですし、リテラル使いの空白を使いたいときとの混線も懸念されるので
なにか空白以外の制御記号か、べた文の中に識別情報を埋め込むなどの差別化をして使い勝手を改良していく余地があります。
そういう意味においても「でにをは別口入力」というのは文法単位的にも入力者負荷的にもちょうど塩梅のいい、問題緩和的な粒度に適切に分節されて
なおかつ「が」「を」「に」等単文字助詞の文法標識づけと同時に打鍵進度が1文字分確実に進むというのがメリットであります。
さらに付け加えて「でにをは別口入力」では、別口パーツの一文字づつを通常のべたかなリテラルとは別の文字コードを立ててしまおうということでさらに意欲的な構えとなっております。
これによって慣用句フレーズの分解能が上がり、ぎなた読み回避はもちろんの事
「身を賭して」「根に持つ」「気が利く」等の検出・アサインがしやすくなると同時にユーザーには長文一括変換したくなるように促す効果もあります。
ただペンタクラスタキーボードの入力体系からしましても割り切れないフィーチャーというのがあります。
分かち書き奮闘の副産物とでも言いますか、複合語の処理や接頭辞の検出が接尾辞に比べて難易度が高いという性質も徐々に明らかになって来たので
転ばぬ先の杖としてØ文字マーカー:[Øゼロキー]というのもオルタナティブとして残してあります。
このキーの運用の全体像はまだ見えてこないのですが、すでに別口入力の守備範囲で文法標識としての眼目は用立てができておりますので
あと切り分けるとすればこの分野外でうまくカバーできていなかった要素
・長尺の複合語・合成語の切れ目検出のため
・連用中止法の切れ目の判別のため
・接頭辞の切れ目の判別のため
・アジェンダ名詞の文頭チャンクの切れ目を判別するため
・スク水揚げ・アフガン航空相撲殺される等の誤読・誤検知を防止するため
・清濁の畳語の判別サポートのため
・その他翻訳や音声読み上げのためのアノテーション付与に活用できないか
これらの諸問題に対してうまく手当てができればよいなと考えております。
各判定材料との競合もありますので、全部が全部盛り込めないかもしれませんが文解析のスタイルをもっと洗練したものにできるように試行錯誤していきたいと思います。
今記事は以上です。
カテゴリは「でにをは別口入力がある事の利便性」と「[Ø]活用と単漢字変換の打開策」のどちらにするか迷いましたが
引用論文が別口入力の本来的な意義に示唆を多くいただいたので
「でにをは別口入力がある事の利便性」のほうにしておきます。
分かち書きの有効性は今のAI隆盛の文生成の時流からすればいささか古臭い考え方だと一顧だにしない向きもあるかと思いますが
時代遅れと言われようが人間の「気づき」が介在するインターフェース:手業(てわざ)の重要性をもっと掘り進めて
今後も真摯に取り組んでいきたいと思います。
ありがとうございました。