P突堤2

「でにをは」別口入力・三属性の変換による日本語入力 - ペンタクラスタキーボードのコンセプト解説

初めて訪問された方へ

P突堤2へようこそ♪
キーボード解説文を大幅増量してリニューアルしました!
こちらのリンクからコンセプトをご覧ください。

なにげなく使っているかな漢字変換のメカニズムが理解できるスタンダードな一冊

2017-05-28 | 関連書籍・DVDのレビュー
日本語入力を支える技術 ~変わり続けるコンピュータと言葉の世界 (WEB+DB PRESS plus)
徳永 拓之
技術評論社


今回紹介するのは博物的な内容でもなく、技術者たちの人間ドラマでもなく純粋に技術的な視点で書かれた一冊です。
日本語入力、自然言語処理のトピックをネットで調べているときにしばしば目にする機会も多く、中にはかなりの熱量で激賞されておられる方もみられる本書は現時点で間違いなく定番となる一冊だと思いますので紹介したいと思います。
タイトルは「日本語入力を支える技術 変わり続けるコンピュータと言葉の世界」(徳永拓之 著)です。
自然言語処理について書かれた書籍は多いものの、かな漢字変換の仕組みの解説をメインに据えてここまで詳述してあるのは意外と見つけるのが難しく、2012年2月8日発売でありますが現時点においても紛う事なきエポックであるとおすすめできる内容になっています。

第1章(日本語と日本語入力システムの歩み)の大まかな流れとしてはでは日本語入力を語る上での素朴な基礎事項の導入からMicrosoft IMEとATOKという2強時代の到来・そして近年のWeb検索各社のかな漢字検索エンジンへの参入などの時系列の流れが説明してあります。
この流れの中でかつての1980年代でのかな漢字変換エンジンの主流の変換手法であるn文節最小一致法(少ない文節数でいかに長い文字列を変換できるかを試みる)の原理がまず示されますが、ここを入り口に2つの改善案が展開されていきます。それが「単語間のつながりやすさを考慮したかな漢字変換」と「最適解を求めるかな漢字変換」です。
前者は分節数以外に接続のしやすさを定義した品詞間の接続テーブルとか連接表と呼ばれる表を参照しつつそれを反映したスコアで評価するというものです。
後者は、前者の方法では必ずしも求まった結果が最適解であるという保証がない中で、隣接する単語の間のつながりやすさをスコアとするようなシンプルなモデル化を行っている場合には最適解を高速に求める手法が存在し、探索の最適性が保証されているというものです。ここでビタビアルゴリズムという言葉が出てきます。
これは読み進めていくうちに頻出のキーワードですから時系列の理解とともに、とっかかり事項として変換手法の改善背景を心に留めておくと良いでしょう。

2章はかな漢字変換を実際にアプリケーションとして開発してみるということになったときに懸案となる技術知識について、システム側から見た日本語入力の状態、文字入力フレームワークという枠組みの中でのやりとり・役割をOSやAPIとのカラミの中で概観的に書かれています。
本書に占める位置づけとしては開発者向けの手続き上の技術課題が多くやや専門的なため独立性の高いパートですがこの章の最後の方に出てくる[かな漢字変換器を構成する3つの大事な要素]…が変換にかかわるビッグイシューとして案内指標となると思ったので留意しておきます。
☆かな漢字変換器を構成する3つの大事な要素=データ構造、デコーダ、学習アルゴリズム
仔細は本記事では省略しますがこの書籍で述べたいところのもととなる視点がまさに集約されたくだりだと思います。ここから各章にわたるある意味力点のメリハリの効いている緻密な掘り下げ記事が続いていきます。

3章は肝心のかな漢字変換に用いるデータ構造についての詳しい説明です。変換のプロセスでは入力文字列からまず辞書引きを行う必要があります。しかし愚直に部分文字列のスコープをずらしつつ総当たり的にマッチングしていたのでは入力文字数の増加に計算量がついていけずものすごく時間がかかってしまいます。
そこで効率的な辞書引きの方法について「共通接頭辞検索」というものが提示されます。共通接頭辞検索では枝に文字がついたツリー構造でたどれるのでその都度参照問い合わせをするのではなく辞書引きの構造それ自体を以て対応させているのでなるほどと思うほどうまくできています。
この便利な木構造は抽象的には「枝に文字のついたツリー」=トライと呼ばれておりこの章ではトライを実現するデータ構造としてダブル配列とLOUDSがかなり詳しく解説されていました。
ブログ主ぴとてつが関連事項を調べたところ、有名な形態素解析エンジンMeCabやChaSenの辞書として利用されているのがダブル配列であり、本書でも触れられているGoogle日本語入力との関係ではデータ圧縮率の高さからLOUDSが採用されていることがわかりました。まさに今現在の先進的な分野で重用されているものが確認でき非常に貴重な記述だと思います。

4章ではかな漢字変換器を実現するための手法について具体的にアプローチしていきます。大まかにいうと、全ての部分文字列に対して辞書引きにより変換候補を求め、グラフ(変換可能性のあるワード要素同士がエッジ(辺)で結ばれているもの)を作り、ビタビアルゴリズムを用いてグラフの最短経路を求める…というモデルとして定式化していきます。
ここでは再帰というテクニックを用いて、最短経路問題を解く解法のパフォーマンスを向上させるために途中の計算結果をキャッシュする、メモ化再帰とよばれる手法について掘り下げられています。
以降ではグラフのノードやエッジにどのようなコストをつければいいのかを自動的にプログラムに推定させる(=機械学習)の手法として構造化パーセプトロンというものが導入されます。
スコアの計算にどのような情報を使うか、スコア調整の手順、コードとしての実装、学習用データの入手方法とアノテーションと呼ばれるデータの前処理について一通り解説し、これで簡単なかな漢字変換器の概念がひとまず完成したところで次章以降の種々の機械学習の実例に関して論ずる準備が整います。

5章は機械学習の話により深く入っていき、まずは二値分類という基本的な機械学習タスクの説明から始まっていき段階を深めていったうえで入力も出力もより複雑な構造学習の問題へと移っていきます。
正直理解の及ばない専門的な内容ですが、この著書の紙面をかなり割いて解説しており著者の力の入れようがうかがえるとんでもない充実ぶりです。ただここらあたりを読んでいる頃には、あえて本書を先読みして最終章の<付録>を読んでおくことをおすすめします。
<付録>では本書を読み進めるにあたっての予備知識・背景知識が数学的・技術的観点から事細かに解説されており進度に応じて適宜参照すると役に立つでしょう。

6章は5章を読みこなした方ならすんなり入れる箸休め的内容です。
目についたのは5章の中盤で若干触れてあった事の考え方で、ビタビアルゴリズムを拡張させた隣の隣のノードくらいまでの情報を計算に使うトライグラムについての記述と予測入力についての概観や考察が興味深かったです。


以上を通して、途中でわからなくなってしまうこともありましたが、初学者向けに間口の広い話題から入ってきてもおり決して専門家だけに特化された書籍ではないので日本語入力に興味のある方ならチェックしてみるのも良いかと思います。

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

貴重な映像資料 日本語ワープロ誕生の秘話

2017-05-10 | 関連書籍・DVDのレビュー
プロジェクトX 挑戦者たち 第VI期 運命の最終テスト~ワープロ・日本語に挑んだ若者たち~ [DVD]
国井雅比古,膳場貴子,田口トモロヲ
NHKエンタープライズ


今回紹介するのは珍しく映像です。
今では懐かしい番組ですが、産業界・実業界から国家プロジェクト・スポーツ・エンターテイメント界にわたるまで数々の名ドキュメントを残してきたNHKの「プロジェクトX〜挑戦者たち〜」から第95回目の放送「運命の最終テスト 〜ワープロ・日本語に挑んだ若者たち〜」(初回放送2002年9月3日)のDVDを紹介したいと思います。

20世紀も半ばを大きく過ぎ、世界の経済界が隆盛を誇っていた頃、ビジネスシーンにおいて整った文書の作成はなくてはならないものとなっていました。
欧米では一般の人がタイプライターで契約書を作っていましたが、その一方日本で活字を打てるのは数少ない和文タイピストだけ。言語の特性とはいえタイピング文化の趨勢に日本はついていけず、まさに日本語が経済の足かせとなっていました。
アルファベット26文字に対して漢字50000、これでは全く勝負になりません。戦後日本語の表記を改めローマ字表記に統一しようとする動きもあったくらいでしたから何とか乗り遅れまいとする当時の産業界では相当の危機感があったはずです。
そんな折とある新聞社から当時ベトナム戦争で大量の記事を電信で送るために使われていた漢字テレックス鍵盤の、お世辞にも良いとは言えない使いづらさの窮状に東芝の森健一さんが「なんとかしてみます」と対応に奮闘するところから話は始まります。

その後紆余曲折があって本格的に日本語入力タイプライターへの取り組みが始まったのですが、技術的な壁に直面しつつも「変換」という概念をブレークスルーにして実用化させ商品化を目指す技術者たちの物語が描かれています。
そしてまたこれは、常にダイナミックに変容し続けている企業の、組織人たちのドラマでもあります。日本語ワープロ開発の立ち上げに携わった人員もまだ限られており、正規の業務課題ではなく少人数の人員でひっそりと行う"アンダーザテーブル"の研究対象であったのです。(一応上司の承認がいるが)
未公認のプロジェクトを責任者に認めてもらうために知恵を絞る技術者たち…市場に商品となるものを世に出すためには数々の技術的課題をクリアしていかねばなりません。製品の小型化、変換率の向上、変換スピードなどの問題をひとつひとつ打開していく技術者の苦労が語られていきます。
その頃東芝青梅工場では大型コンピュータ製造からの撤退、事業縮小が進められようとしている最中の社内情勢もあり瀬戸際に立たされながらの状況で上司との対決も迫ってくるという非常に緊張感のある展開となっています。

2回視聴した限りで印象に残ったのはプロジェクトのリーダーである森健一さんの言葉
「日本語のいいタイプライターというのが手近にあって誰でも使えるものでなければいけない」
「小学生から大人の人まで老人までもが使えるような道具が欲しいと」
などのような国民誰でもが使えるような、特別に訓練された者だけにとどまらない取り扱いのしやすさを追求する信念のようなものがうかがえるセリフです。
この言葉は番組の構成上も重要な役割を示すので見逃さずに心に留めておいた方がいいでしょう。
かくして新商品は文章を加工する機械=ワードプロセッサー(ワープロ)と名付けられ機種名 JW-10の名とともに日本の技術史の中でも燦然と輝く業績となったのです。


――とストーリーの紹介はこの辺にして、このドキュメントに盛り込まれなかったいくつかの背景事情もあわせて頭に入れると有益なのでここに記していきたいと思います。

1.まず、「かな漢字変換」という概念を初めて使ったのは九州大学の栗原俊彦先生という方であり先進的な研究をしていましたが当時沖電気と共同で研究をおこなっていたので森さんは協力を得られませんでした。そこで森さんは本番組で登場した工学部出身の河田勉さんを一年間京都大学に留学させています。(京都大学も九州大学と並んでコンピュータでの言語処理のメッカだった)

2.困難なことに、開発メンバーの一人である天野真家さんはこの番組が放映されてから何年も経ったのちに2007年12月、日本語ワープロの発明に関する職務発明を巡り東芝を訴訟するという事態にもつれてしまいました。この番組の制作時、問題が露呈する前の微妙な事実関係の認識があったせいか今考えてみると都合よく演出された観がぬぐえない描写も一部にあります。
具体的には、
同音異義語の選択を機械がするということについてさまざま問題で苦労していた天野真家さん(本番組の出演者の一人)とのやりとりシーン・
<雑誌を抱えた森が天野のもとへやってきた「ヒントがあったぞ」医学誌とスポーツ誌を広げた>
<職業によってよく使う単語は決まっている。最初は使う人が単語を選び、次からはその単語を機械に優先的に表示させればいい>
<学習機能をつければ変換率は大幅に上がるぞ>
*ここの部分は事実と違います(演出上の問題かもしれませんが正確ではありません)
――変換時に使用頻度の高い単語を優先的に表示する技術については第一審で森氏が具体的・創作的に関与したものと判断することは困難である旨の判断がなされています。
森さんはリーダーとして方向性を打ち出していったかとは思いますが、開発チーム内での「その発明者の議論の相手になって,その発明に本質的に貢献した者も発明者である」とのルールがかえって真の発明者の線引きを難しくさせて事態がややこしくなってしまったのは残念です。
その後天野さんは2011年に高裁へ控訴する事態に発展するものの翌年東芝と和解し(天野氏曰く「200%満足」)、一応の解決に至りました。
入力したかなの前後関係から候補を判断する「局所的意味処理による二層型かな漢字変換」は天野さんの単独発明であることが認められましたし、「優先権の付された単語を記憶する記憶手段-暫定辞書を用いた学習方式」についても第一審でこそ3人のメンバーでの共同発明となっておりましたが今回の和解により評価も鑑みられた結果となっているかと思われます。(和解内容は非公開なため推測でしかありませんが…)

3.本番組や他の書籍などでは登場してきませんでしたが、出演した3人のほかに武田公人さんもメインメンバーの一人として重要な貢献をされたのでここに記しておきます。
開発が進む過程の中で天野さんが国文法の枠組みの中だけでは計算機で言語処理の扱いに窮するので国文法にない、コンピュータで扱うための品詞体系を整備する必要に迫られるなどいよいよ大詰めを迎えてきたのに伴い森さんから新たなメンバーとして紹介されたのが武田さんであります。
彼は固有名詞の処理エンジンやファイルシステムまわりの処理を担当し、アンダーザテーブルの中で正規業務の手前人員・時間を割けなかった中で天野さんをうまくサポートし技術的なやりとりをしました。
のちに全国発明表彰や特許庁長官賞も受賞するほどの実質的貢献者として大きな功績を残されています。


…以上の補足知識を顧慮しつつ番組を視聴すると奥行きのある鑑賞ができるかと思います。
時代の流れなのか、この番組の舞台にもなった東芝の青梅事業所は2016年暮れに売却されてしまい跡地には大型物流施設が建設されるとのことですが日本語ワープロにかけた先人たちのロマンあふれるドラマは今後も心に刻まれていくことでしょう。
懐古主義というわけではありませんが、こんな今だからこそみる価値のある1本だと思います。

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

タイプライタの歴史から日本文入力技術まで

2017-04-26 | 関連書籍・DVDのレビュー
文字入力とテクノロジー (コンピュータ科学者がみた日本語の表記と入力2)
山田尚勇
くろしお出版


このカテゴリでは日本語入力・文字入力インターフェイスあるいは日本語文法論・文化比較などについて書かれた本やDVDなどについて実際に読んでみて/視聴してみての感想・解説を記していきたいと思います。
このブログの読者の関心分野の新たな探索の助けとなれば幸いです。では早速第1冊目の紹介をしたいと思います。
タイトルは「コンピュータ科学者がみた日本語の表記と入力 文字入力とテクノロジー」です。(2014年6月22日第1刷 発行)

この書籍はキーボードの漢字無連想変換方式(T-CODE)の発案者として知られる山田尚勇・東京大学名誉教授の著書であります。「コンピュータ科学者がみた日本語の表記と入力 脳と色彩の基礎科学」に続いての第2巻となっています。このシリーズが刊行される経緯として、
山田先生は2008年5月に77歳で亡くなられたのですが、それまで研究の場において発表された原稿やWEB上の文書などを集約して再構成したもので元助手であった岡留剛・関西学院大学教授が山田先生の成果をつなぐため監修に尽力され刊行されました。

書かれているテーマは多岐にわたっておりタイプライタの発明・発達の歴史から欧米各国での工業製品化の過程と当時の社会へ与えた影響、キーボード作業の人間工学について、邦文タイプライタ、中国文タイプライタ、電動式以降日本語入力においての多段シフト入力方式、2ストローク入力法、タイプ作業中の脳機能的な考究、現代の入力作業における健康障害についてなどの視点で詳しく解説されています。

なかでも皆さんも一度は耳にしたことも多いであろう「Qwerty配列」(現代で最もスタンダードな配列)の起源に関するエピソード
「現代広く使われているキーボードQwertyの配列は当時のタイプライタの機構上の不便によるもので素早い連続打鍵で印字棒が絡まってしまうのを防ぐためにわざと打ちにくく配置した」
という逸話が今日においてはたびたび引用されますが、この説を「そこまで極端に意図的ではない」とやんわり否定している点が印象的でした。
もちろんやや抑制的に同意してもおり、キー配置でより絡まりやすくなる隣り合わせを避け、対向位置に置かれた2本の印字棒で打たれるようにするという傾向を認めていますが、膨大な資料を検証していくうちにタイピカルでない慎重な見解をもつに至った山田先生の苦労の跡がうかがえて考証の丁寧さを感じました。
この当時(1873年頃)のショールズの関与したモデルが出た頃にはまたタッチタイピングというものが一般化されておらず、ユーザーは左右の人差し指での2本指打法で打鍵することを想定していたので奇しくもこの配列はタッチタイプに最適化されてはいないことが過渡期ということもあって後々まで残っていったのでしょう。

このQwerty配列が不備がありながらどうしてここまで普及しているのか不思議ですが、その後のさまざまな配列合理化の試みが行われていく中で1930年代にQwerty配列に対抗できる可能性を秘めたドボラク式簡素化鍵盤(以下、Dvorak Simplified Keyboardの頭文字をとってDSKと呼ぶ)が出現します。
DSKは人間工学的に非常に適った配列で、Qwerty配列に比べて優位な改良点として
・左右の手の分担の均衡:Qwertyでは左手57%右手43% それに対しDSKでは左手44%右手56%で右利きの人に合わせている
・各指の使用度の均衡:より偏りのないなめらかな分布
・鍵盤の各段の使用度均衡:Qwertyでは上段の使用度が大きく、DSKではホーム段の使用度が大きい
・ホーム段だけの文字を使ってタイプできる語囲:Qwertyでは100語程度、DSKでは3,000語に及ぶ
・指の移動量:一つの段から他の段へと移動する指の運動距離は、Qwerty に比べたとき、10分の1だといわれている
・左右の手の交互使用:母音をあらわす文字を左側に配置
・運指困難な打鍵順序の出現頻度:片方の手の指を連続して使う面倒な入力(awkward sequence)を避ける
・鍵盤外側→内側への動きを重く見る;手指の円滑な移動のために片手の指が連続して打鍵する場合には配慮する
ここらあたりの解説が非常に読み応えがありで合理的な設計思想に計算されつくした美さえ感じてしまいます。
DSK配列は全米各地の大学や種々の学校で広く実地検証が行われていた実績があったり、タイプ・コンテスト競技会で上位を独占したりするなどQwerty配列にとって代わらんとするポテンシャルと機運を持ち合わせていたのですが、ここまでそれほど普及するまでには至っていないのが残念です。
この書籍には運指に関するフィジカルな、あるいは人間工学的な観点からの視覚的な資料がとても豊富で丁寧な論説に貴重なデータが随所に盛り込まれており、資料的価値の高い文献だと思います。

さらにはカナ文字タイプライタ・ローマ字書き日本文用タイプライタの発展へと話は続くのでありますがここでは仔細について多くは語りませんが日本語は話す・聞く分には易しい言語だが、読み書き・表記の問題が難事中の難事でタイプライターのような機械で文字を取り扱う段にも相当の苦労があったであろうことが覗える解説であったと思います。(「かながきひろめかい」や「羅馬字会」などの活動)

ペンタクラスタキーボードを掲げるブログ主として特に着目しておきたい記述は電子化時代の新しいキーボードのあるべき姿や展望についてのものであります。わずかばかりしか触れられてはいないものの今でも充分通じる問題意識が提起されていると思われます。
p39.しばらく前には超えるのが不可能と思われていた機構的な限界も、今日ではもはや新しいワープロの設計にとってはほとんど制約とはなりえないのである。
p124.もしわれわれがいま新しいタイプライタ鍵盤を設計しようとするのなら、もはやわれわれは旧式のものに拘泥することなく、現在のものに用いられているものとは、まったく異なる斬新な技術の成果をとりいれたものにすることができるのである。
などがその箇所です。今から140年以上も前に生まれたタイプライタの機械的印字機構の名残がいつまでも残っていては、デジタル化され複雑な演算処理を当たり前のようにこなす現代技術のフレームワークにはなんとももったいない話だと思います。それと同時に電子化のメリットを十二分に織り込んだ究極のキーボードを目指すうえで欠かせないエッセンスはすでに先人によってまさに示されていたのだと再認識させられました。

最後に後半の方で出てくる2ストローク入力法の項では山田先生の巨大な業績である無連想漢字コード(Tコード)の生まれた背景となぜ無連想式になったのかなどについての過程がつまびらかに書かれています。
2ストローク入力ではキーボード上の2文字を使って漢字一文字を表したもので(符号化)、原理的にはキーボード上の48キーを使って48×48=2,304個の要素を入れることができるのですがTコードではある程度現実的なボリュームとして約1,260字のテーブルが設定されています。また今では漢字を直接入力するこのような方式を漢字直接入力=漢直と呼んでいます。
この符号を覚えるのを助けるために ☆鏡 = ミラ、方 = ホイ(方位) などのように意味的連想をしやすくするようコードが工夫されているのが連想式入力と呼ばれているのですがTコード入力法では連想に頼らない、無連想方式という方法を採用しています。
この連想を排した理由についても深く掘り下げられており、連想式と比べての記憶の仕方の性質を注意深く観察し認識と想起のプロセスを脳科学的な角度からも検証したうえでのある種の"見極め"が行われたことを深く物語っているのが分かって非常に興味深いと思いました。
高速入力をする際において、かな漢字変換方式の宿命として同音異字/異義語の選択操作がどうしても不可避なために結果的にタイプ/思考過程がよどんでしまう問題を真正面からとらえた正攻法のアプローチであると思います。もちろん時系列的に現在のかな漢字変換の隆盛を知らないうち・あるいは同時進行的であったにせよ、そこには枝葉にとらわれずあくまで本質を見極めたうえでの決断の重みがよりひとつの論としての輪郭を際立たせているのだと言えるでしょう。
ただ注意しておきたいのはその後の発展形の入力法であるTUTコードや超絶技巧入力には全く(TUTコードについてはかするほどには触れられている)触れられていないのでこれらに関する記述を求めている人にはお勧めしないとことわっておきたいと思います。
とはいえTコードに関するまとまった情報はWeb上では比較的たやすくアクセスできるものの、こうやって市販の書籍として入手できる類のものはこれ以外に見つけられなかったので貴重ではあると思いますし、本書のひとつの読みどころであると言ってもいいかも知れません。特徴的な位置対応表示によるTコード表もしっかり掲載されています。

全体としてみて、西洋と日本の文字入力法の歴史的な流れを掴める(比較的源流寄りの、黎明期~戦後を中心として)のに加えここでは紹介しきれなかった数々の機構をもつあるいは用途に利用されたさまざまな入力方式を知ることができて百科事典的な面白さのある一冊だと思います。
ときに入力方式というのは文書を書く人の自意識にも作用して文体そのものにも変化を及ぼすというのですから驚きです。本書タイトルのシリーズ名にもあるとおり日本語の表記と入力も多分にそれらのもつシステムに依っているものなのだと思いを巡らしました。願わくば本シリーズの更なる続編が刊行され、あらたな知の源泉が生まれる日が来たのなら件の続続編(第3巻)の書を鋭意入手してひとり悦に浸りたいなと思います。今後のくろしお出版の動向にも注意していきつつここで文章を終わりたいと思います。
拙い文章でしたがお付き合いしてくださって誠にありがとうございました。

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする