音声認識

2013年02月03日 13時59分28秒 | Weblog

音声情報処理の実用化はiPhoneのSiriが有名でしたが、手の届かないブドウは酸っぱいの譬えで、どうせ大したことは無いだろうと高を括っていました。
Nexus 7での音声によるネット検索があまりに優秀なので、他にどんなことができるか、パソコンでも出来るか、妙味が湧きました。

Nexusに今どんなアプリが有るか知りませんが、もしかしたら手書き入力より音声入力の方が便利になるのではないか、あるいは併用することでキー入力からは予想できなかった操作法が得られないか、期待しはじめています。

MacのOSがMountain Lionにバージョンアップした時、新しい機能として音声入力が加わっていたのですが、コロッと忘れていました。
試してみたら、練習すれば音声ワープロとして使えないこともなさそうです。
ただ、nexusと違って認識エンジンがパソコンの中になくクラウドの中にあるので、音声情報をいちいちWi-Fiでセンターへ送って認識させ、結果をパソコンへ送り返すということをやっているようです。ユーザーはその間どうなっているか分からないまま待たされます。
iPhoneのSiriも同じやり方らしいです。
処理の速さだけの問題でしょうか。

Windows 7でもOS自体が音声入力を使えるようにしていたことに気づき、試してみました。
一応、かなり正しく仮名漢字変換までしてくれるのですが、何故か3回ずつ発声しないと認識しないみたいでした。
マイクとパソコンの相性ということも有ったかも知れません。

「一太郎2013」のダイレクトメールが来て、そのスーパープレミアム版に音声入力機能があると強調していました。
昔「voice一太郎」というのが有りましたが、とても使い物にならなかった記憶があります。今度はNuance社の「ドラゴンスピーチ11J」というのがあって、その一部を組み込んであるとのことでした。
AppleのSiriも音声エンジンはNuance社から提供されているようです。

「一太郎」はここ数年まったく利用していません。スーパープレミアムは要らない機能も多く躊躇われますが、「ドラゴンスピーチ11J」の単体なら好いかと思い、今試しはじめています。
Nexusは特にマイクを選びませんし、発声のトレーニングも必要ないのですが、「ドラゴンスピーチ」はマイクチェックが厳しいらしく、何度も音質が悪いと言って拒否されました。
手順にもう少し融通が欲しい感じです。

ソフトと組みになっているヘッドセットのマイクが有ったのですが、それを選ばなかったのがいけなかったのかと考えたりしました。
ノイズを拾わないようにUSB接続式で、かつノイズキャンセリングの機能がついていますが、少し値段が高く、しかし安物みたいな写真でした。

静かな場所を選んでもコードが擦れるなどしてノイズが入るでしょうからBluetooth接続ならもっと良さそうだと考え、ネットや量販店で調べたりもしました。
補聴器用に見かける耳かけ式のものが有り、良さそうでしたが、マニュアルの注意書きにWi-Fiの電波と干渉する場合が有るかもしれないとあり、もしそうなら問題外になります。

マイクの性能は価格と比例していないようです。
SkypeなどでTV電話するなど、新しい用途が生じているようですが、まだ普及するに到ってなくて、売り場でマイクの現物を見つけるには苦労します。

パソコンによる音声認識は、マイクからの直接入力でなく、ICレコーダーやスマートホンから音声ファイルを取り込み、認識するという利用法も有り、そうした使い方の方が需要が多いかも知れません。
そうだとしたらシステムが無茶苦茶にノイズを嫌うとも思えません。

音声認識の研究はNATOやDARPAのプロジェクトから始まり、最初はロシアのスパイを検出するのが目的だったと聞いたことが有ります。
研究費をとるための口実かと思ったりしましたが、声紋・イントネーション・アクセントは勿論のこと、フォルマントや子音のパターンまで個人差や文脈の影響が非常に大きく、スパイ検出説もあながち否定できません。
発声者のプロファイルということが音声認識と切り離せないことは受け入れざるを得ません。

悪いのは、実はマイクでなく、声でした。
普段あまり声を発することがなくなった老人の音声は余程音質が悪いらしいとは自覚しています。
認識エンジンは音声の態をなしていないと言っていたのでした。

老人としてはウォーキングと同じように、毎日いよいよ声を出すように努めるべきでしょう。
パソコンやらタブレットやらの認識エンジンが、われわれの理不尽な発声にどこまで応えてくれるか。
音声認識が認知障害の実状をどこまで明らかにし、老化の進行を抑制するツールになってくれるかどうか。
それが新しい期待になります。

「ドラゴン」は友人と話をしているのと同じようにマイクに話しかけるように、と言います。
それがいけなかったようです。
敢えて甲高く絞り出すように発声したら音質テストがパスしました。

黙々とパソコンを操作していても、頭の中では声を出しています。
声帯の神経はそれなりに疲労していて、いざ声を出すと枯れています。
老人では、特にそうした傾向が出やすいかと推測されます。

「ドラゴン」の広告では発声のトレーニングをしなくても使えるが、トレーニングすれば認識率が向上すると言います。
しかし、ここは練習を省略し、試してみました。

　　―――　例　―――
ドラゴンで本線（音声）の入力をしてみます
新しく（正しく）入力しました
人利用名（2行目）を間違えていましたね
まあいいでしょ（でしょう）
これでやりますか。
今日は2月1日です。
大体このぐらいの長さの文章のだいじょぶ（大丈夫）なんでしょうか。
今日はここまでにしておきます。
　　―――――――――

言い間違えたり、間違って認識されていても気づかなかったり、どっちも相当いい加減です。
( )の中のように言ったつもりが誤認識されていました。

普段、人と話をしているときも、これくらい言い間違え、誤認識されていることでしょう。
お互いに相槌を打ったり表情を見たりしながら話を進めるし、間違えたと分かっても100％通じる必要はないと思ったりして、あんまりは問題にならないでいるのではないでしょうか。

日	月	火	水	木	金	土
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

	ブログを読むだけ。毎月の訪問日数に応じてポイント進呈
	【コメント募集中】プロ野球キャンプを見に行ったことはある？
	訪問者数に応じてdポイント最大1,000pt当たる！
	dポイントが当たる！無料『毎日くじ』

記憶のスクラップ・アンド・ビルド

当然ながら、その間にタイムラグがあり、 それを無視できなくなることこそ残念です。

音声認識

当然ながら、その間にタイムラグがあり、
それを無視できなくなることこそ残念です。