「かな漢字変換の一方法.pdf 牧野寛 勝部康人 木澤誠 1977」
という文書があります。
重要なところを抜粋すると
---------------------------------------------------------------
2.自立語付属語分かち書き
現在までに報告されている仮名漢字変換は、識別のための特殊文字(制御記号)を挿入せねばならないという不便さを伴い、使用者に少なからず負担を強いる結果となっている。
仮名漢字変換は仮名入力文の形式と大いに関係し、これは仮名漢字変換システムにおける打鍵速度の差、変換の正確さの差となって現われてくる。
ここで、べた書きを含めて従来用いられてきた分かち書きの方法を以下の1)~5)にまとめると、
1)空白****を全く用いないいわゆるべた書き
2)恣意的に空白を挿入する分かち書き
…最小の区切り単位は文節とし、複数個の文節が連続することを許した分かち書き
3)文節分かち書き
…文節単位ごとに空白が挿入される分かち書き
4)単語分かち書き
…単語ごとに空白が挿入される分かち書き
5)文字種分かち書き
…文字種ごとに空白が挿入される分かち書き
などが挙げられる。1),2),3)及び5)のそれぞれは仮名漢字変換が必要とする部分の抽出に難点があり、4)は入力規則が複雑となる。
このため筆者らは次のような分かち書き方法を提案する。
6)自立語付属語分かち書き
この規則は自立語**と付属語***との間に空白を挿入するという原則で示される。
但し、2個以上の自立語が連続し、それらが1語となって意味を成す場合以外は、自立語間に空白を挿入するという規則を含んだ分かち書きの方法である。
Fig.1に上記の1)~6)に対応した例を示す。
自立語付属語分かち書きを用いる仮名漢字変換の利点は以下にまとめることができる。
a)入力規則が簡単であるから、自立語か付属語かの区別さえつけばよいので、正確な文法知識を要求せずオペレータの負担が軽い。
b)かな漢字変換を要する部分の抽出が比較的容易である。
c)付属語の性質すなわち付属語によって与えられる自立語の品詞情報を用いることができる。
-----------------------------------------------------------------------
となっています。(抜粋)
この文書自体は後から知ったことでありますが拙ブログで提案している「でにをは別口入力」に通ずるものがあります。
文/単語の切り分け、特に分かち書きの問題意識からスタートする、人間の介在する入力のプロセスとしてのかな漢字入力へのアプローチの源流は
すでに1977(46年前)の時点で指摘されていたという事であります。
しかし自立語と付属語の境界のたびに空白を挿入するという作業も煩雑ですし、リテラル使いの空白を使いたいときとの混線も懸念されるので
なにか空白以外の制御記号か、べた文の中に識別情報を埋め込むなどの差別化をして使い勝手を改良していく余地があります。
そういう意味においても「でにをは別口入力」というのは文法単位的にも入力者負荷的にもちょうど塩梅のいい、問題緩和的な粒度に適切に分節されて
なおかつ「が」「を」「に」等単文字助詞の文法標識づけと同時に打鍵進度が1文字分確実に進むというのがメリットであります。
さらに付け加えて「でにをは別口入力」では、別口パーツの一文字づつを通常のべたかなリテラルとは別の文字コードを立ててしまおうということでさらに意欲的な構えとなっております。
これによって慣用句フレーズの分解能が上がり、ぎなた読み回避はもちろんの事
「身を賭して」「根に持つ」「気が利く」等の検出・アサインがしやすくなると同時にユーザーには長文一括変換したくなるように促す効果もあります。
ただペンタクラスタキーボードの入力体系からしましても割り切れないフィーチャーというのがあります。
分かち書き奮闘の副産物とでも言いますか、複合語の処理や接頭辞の検出が接尾辞に比べて難易度が高いという性質も徐々に明らかになって来たので
転ばぬ先の杖としてØ文字マーカー:[Øゼロキー]というのもオルタナティブとして残してあります。
このキーの運用の全体像はまだ見えてこないのですが、すでに別口入力の守備範囲で文法標識としての眼目は用立てができておりますので
あと切り分けるとすればこの分野外でうまくカバーできていなかった要素
・長尺の複合語・合成語の切れ目検出のため
・連用中止法の切れ目の判別のため
・接頭辞の切れ目の判別のため
・アジェンダ名詞の文頭チャンクの切れ目を判別するため
・スク水揚げ・アフガン航空相撲殺される等の誤読・誤検知を防止するため
・清濁の畳語の判別サポートのため
・その他翻訳や音声読み上げのためのアノテーション付与に活用できないか
これらの諸問題に対してうまく手当てができればよいなと考えております。
各判定材料との競合もありますので、全部が全部盛り込めないかもしれませんが文解析のスタイルをもっと洗練したものにできるように試行錯誤していきたいと思います。
今記事は以上です。
カテゴリは「でにをは別口入力がある事の利便性」と「[Ø]活用と単漢字変換の打開策」のどちらにするか迷いましたが
引用論文が別口入力の本来的な意義に示唆を多くいただいたので
「でにをは別口入力がある事の利便性」のほうにしておきます。
分かち書きの有効性は今のAI隆盛の文生成の時流からすればいささか古臭い考え方だと一顧だにしない向きもあるかと思いますが
時代遅れと言われようが人間の「気づき」が介在するインターフェース:手業(てわざ)の重要性をもっと掘り進めて
今後も真摯に取り組んでいきたいと思います。
ありがとうございました。
代表的な例:
ここではきものをぬぐ
→ここでは着物を脱ぐ
→ここで履き物を脱ぐ
あしたはいしゃにいく
→明日は医者に行く
→明日歯医者に行く
これだけはいっておきます
→これだけ入っておきます
→これだけは言っておきます
…これらの例では「履き物」「歯医者」「入って」などのような語が切り出されているものの、語頭にある「は」が助詞の「は」ともとれることに加えてそこに続く「着物」「医者」「言って」が偶然にもそれ単体でも存在する語だったので境界の捉え方がどちらでも成立してしまう混乱が生じます。
これは従来のベタ打ちのかな漢字変換ではどうすることもできない問題です。
ペンタクラスタキーボードのでにをは別口入力では助詞のマーキングという原始的な方法ながら非常に明快で、ある意味力任せな方法ではあるもののこの種の誤変換を原理的に回避できる非常に有効な手段であることがわかります。
助詞といってもさまざまで前述の「は」だけに限らずいろんな助詞の有無弁別に役立ちます。
先ほどの例ほどの長さはありませんが短いパーツのものの例として以下のものを挙げておきます。
短い語句での例:
~でない・出ない
~できる・で切る
~のマス・飲ます
~となり・隣
~として・賭して
~にない・担い
~につけ・煮つけ
~は夏・放つ
~はどうか・波動か
これらのようなありふれた定型フレーズひとつをとってもさまざまな複解釈文が挙げられるのがわかると思います。
あとは雑多な複解釈・誤変換の出てきそうな語句をつらつらと挙げていきます。
その他雑多な例:
思いで・思い出
家で・家出
意志薄弱・石はクジャク
運び手・は媚びて
西住・に沈み
干し芋・星井も
お母さんに・お母さん似
伊賀・胃が
乗り・の理
ご飯のお供・ご飯の音も
牛乳の芽・牛乳の目・牛乳飲め
本と・ホント
原西・腹に死
車で・来るまで
木であるか草であるか・期である格差であるか
柵ごと移動する・錯誤と移動する
理由も富む・理由求む
山は・ヤマハ
イノセンス・胃のセンス
空きのみ乗り切って・秋の実り切手
杉田で会いましょう・過ぎた出会い魔性
犬神家の一族・犬が三毛の一族
大枚はたいて・タイ米は炊いて
京浜東北線・景品とウホ苦戦
もう勝手にしな・儲かって二品
ムーンサルト・ムーン猿と
自動発動・児童は集う
最後に細かい話ですが「この」「その」「あの」「どの」は連体詞ですので「この」→こ+[の](別口入力)ではなく「この」全体単体でベタ打ちしてください。
こうすることによって以下の例での使い分けができるかと思います。
こそあど連体詞の例:
このちから→この力/個の力
どのおと→どの音/ドの音
でにをは別口入力にあたっては語句の切れ目にその都度意識して入力する手間がありますが、打鍵数自体は変わりません。
ペンタクラスタキーボードの基礎的要件をなす、ごくごく基本的なこの仕組みが誤変換を減らすための手立てとして縦横無尽に活躍してくれることを期待しつつ、この機能が目論見どおりしっかりと機能して新しいユーザー体験をもたらしていければいいなと思います。
しかし変換前の未変換文字列はプレーンなひらがなが連続して並ぶことになるので読みにくいだけでなくコンピュータにとってもこれは判別の難しい問題であり、その把握には品詞間の接続の規則性や統計的手法などによってさまざまなモデルが構築され、アプローチがなされています(これを形態素解析という)。
こういった形態素解析において品詞判別に特定の助詞・助動詞などの所在情報を人間の側から付加提供する[でにをは別口入力]というものは機械的なデータ解析手続きにはそぐわずイレギュラーなものでかえって混乱を招くものだという懸念もあるかもしれませんが、実際の入力場面においてその効用は一目瞭然であることを理解してもらいたいと思います。
実際[でにをは別口入力]は単純にして強力な仕組みであり、すべての助詞助動詞をカバーしているわけではないものの、頻度の高い、しかも一文字のものを特に配慮して採り上げているため区切り判別時の困難の解消に大いに役立つものと思われます。
このように文節や単語の区切りを人間の側が指定する入力方式はSKK(Simple Kana to Kanji conversion program)などでも使われており決して珍しいものではないのでむしろ一周回って現実的なアプローチであるとは言えないでしょうか。
以上のことを踏まえたうえで力説したいのは、ひとくちで言って[でにをは別口入力]には以下の利点があるということです。
まず、別口入力が行われている場合は[でにをは等]助詞が入っていることをその時点で明確に把握できます。助詞助動詞の境界がわかれば誤った区切りの言葉の切り取りは発生せず助詞助動詞の間を隔ててなにがしかの言葉がそこにあることがわかります。
逆にもし別口入力が行われていない場合は語中に「に」が出てきてもこれは少なくとも助詞の「に」ではないものだと判断できます。ひと続きの語の一部の「に」として処理することができるのです。
あるにせよないにせよ同時に他方の可能性を否定しているわけであり、でにをはを明示的に入力させる仕組みが備わっていることで助詞のあるなし両面において曖昧性がはっきりする構造になっています。
一般にIMEは助詞の省略された文章は苦手ですが、ペンタクラスタキーボードなら助詞の省略された文章でもたとえば語中に「の」が出てきたとしてもとりあえず助詞の「の」ではないことがわかるので助詞に引っ張られることなく入力文字列を変換できます。
(例)激安ノミ駆除薬→×激安のミク助役(激安のの"の"に引っ張られた誤変換)