日本語は英語と違って単語間がスペースで区切られている言語ではないので単語単位に切り出すことが容易ではありませんが、漢字やカタカナなど字種が異なる単語が混じっていることで区切りを認識するのが助けられており、読む分においてはそんなに困るということがありません。
しかし変換前の未変換文字列はプレーンなひらがなが連続して並ぶことになるので読みにくいだけでなくコンピュータにとってもこれは判別の難しい問題であり、その把握には品詞間の接続の規則性や統計的手法などによってさまざまなモデルが構築され、アプローチがなされています(これを形態素解析という)。
こういった形態素解析において品詞判別に特定の助詞・助動詞などの所在情報を人間の側から付加提供する[でにをは別口入力]というものは機械的なデータ解析手続きにはそぐわずイレギュラーなものでかえって混乱を招くものだという懸念もあるかもしれませんが、実際の入力場面においてその効用は一目瞭然であることを理解してもらいたいと思います。
実際[でにをは別口入力]は単純にして強力な仕組みであり、すべての助詞助動詞をカバーしているわけではないものの、頻度の高い、しかも一文字のものを特に配慮して採り上げているため区切り判別時の困難の解消に大いに役立つものと思われます。
このように文節や単語の区切りを人間の側が指定する入力方式はSKK(Simple Kana to Kanji conversion program)などでも使われており決して珍しいものではないのでむしろ一周回って現実的なアプローチであるとは言えないでしょうか。
以上のことを踏まえたうえで力説したいのは、ひとくちで言って[でにをは別口入力]には以下の利点があるということです。
まず、別口入力が行われている場合は[でにをは等]助詞が入っていることをその時点で明確に把握できます。助詞助動詞の境界がわかれば誤った区切りの言葉の切り取りは発生せず助詞助動詞の間を隔ててなにがしかの言葉がそこにあることがわかります。
逆にもし別口入力が行われていない場合は語中に「に」が出てきてもこれは少なくとも助詞の「に」ではないものだと判断できます。ひと続きの語の一部の「に」として処理することができるのです。
あるにせよないにせよ同時に他方の可能性を否定しているわけであり、でにをはを明示的に入力させる仕組みが備わっていることで助詞のあるなし両面において曖昧性がはっきりする構造になっています。
一般にIMEは助詞の省略された文章は苦手ですが、ペンタクラスタキーボードなら助詞の省略された文章でもたとえば語中に「の」が出てきたとしてもとりあえず助詞の「の」ではないことがわかるので助詞に引っ張られることなく入力文字列を変換できます。
(例)激安ノミ駆除薬→×激安のミク助役(激安のの"の"に引っ張られた誤変換)
しかし変換前の未変換文字列はプレーンなひらがなが連続して並ぶことになるので読みにくいだけでなくコンピュータにとってもこれは判別の難しい問題であり、その把握には品詞間の接続の規則性や統計的手法などによってさまざまなモデルが構築され、アプローチがなされています(これを形態素解析という)。
こういった形態素解析において品詞判別に特定の助詞・助動詞などの所在情報を人間の側から付加提供する[でにをは別口入力]というものは機械的なデータ解析手続きにはそぐわずイレギュラーなものでかえって混乱を招くものだという懸念もあるかもしれませんが、実際の入力場面においてその効用は一目瞭然であることを理解してもらいたいと思います。
実際[でにをは別口入力]は単純にして強力な仕組みであり、すべての助詞助動詞をカバーしているわけではないものの、頻度の高い、しかも一文字のものを特に配慮して採り上げているため区切り判別時の困難の解消に大いに役立つものと思われます。
このように文節や単語の区切りを人間の側が指定する入力方式はSKK(Simple Kana to Kanji conversion program)などでも使われており決して珍しいものではないのでむしろ一周回って現実的なアプローチであるとは言えないでしょうか。
以上のことを踏まえたうえで力説したいのは、ひとくちで言って[でにをは別口入力]には以下の利点があるということです。
まず、別口入力が行われている場合は[でにをは等]助詞が入っていることをその時点で明確に把握できます。助詞助動詞の境界がわかれば誤った区切りの言葉の切り取りは発生せず助詞助動詞の間を隔ててなにがしかの言葉がそこにあることがわかります。
逆にもし別口入力が行われていない場合は語中に「に」が出てきてもこれは少なくとも助詞の「に」ではないものだと判断できます。ひと続きの語の一部の「に」として処理することができるのです。
あるにせよないにせよ同時に他方の可能性を否定しているわけであり、でにをはを明示的に入力させる仕組みが備わっていることで助詞のあるなし両面において曖昧性がはっきりする構造になっています。
一般にIMEは助詞の省略された文章は苦手ですが、ペンタクラスタキーボードなら助詞の省略された文章でもたとえば語中に「の」が出てきたとしてもとりあえず助詞の「の」ではないことがわかるので助詞に引っ張られることなく入力文字列を変換できます。
(例)激安ノミ駆除薬→×激安のミク助役(激安のの"の"に引っ張られた誤変換)