2014年3月22日のブログ記事一覧-ウィリアムのいたずらの、まちあるき、たべあるき

音声認識技術と活用例

2014-03-22 09:34:50 | ネットワーク

きのう（３／２１）、産業技術大学院大学に行って

ＩｎｆｏＴａｌｋ
音声認識技術と活用例について
　　　ＮＴＴ　研究企画部門の人

の講演を聴いてきた。その内容をメモメモ

ＮＴＴの研究所　１２個、たくさん、幅広く

・音声認識とは
・音声金式の仕組み
・音声認識の活用事例
・音声認識を活用した実証実験
・デモ

音声認識が拡大している背景
・スマートフォンの普及（約５０％が利用）
・キーボードからタッチパネル
　　使ってみると
　　　　誰もがスムーズに使えるものではない
　　　　ブラインドタッチができない
→より自然なインだーフェース（ナチュラルインターフェース）
　意外と使える

音声認識利用の歴史
・話者特定で単語のみ（１９７０年度）
　　→特定単語の音声認識
・パソコン用音声入力ソフトウェアやカーナビ（１９９０年代）
　　→特定文章の音声認識
・育成シミュレーションゲーム　せが　しーまん（１９９９）
　　→認識率をごまかしたインターフェース
・一般商品として有名となったのが
　　Ｇｏｏｇｌｅ音声検索（２００９）
　　Ｓｉｒｉ（日本語２０１２英語２０１１）
　　しゃべってコンシェル（２０１２）
→利用目的は、コマンド投入や検索キーワード

音声認識
・人の声を文字に億変える仕組み
　　声をにんしきさせるだけでなく、
　　漢字への変換も必要

音声認識の仕組み
　音声認識エンジン（確からしい文の探索）
　　音響モデル：音の波形データを集めたデータ
　　言語モデル：単語とその並び方の情報をあつめたデータ

音声認識「技術」が進歩した背景
・コンピューター、ネットワークの高速化・大容量化
・クラウドにより集中管理
・ビッグデータ処理技術の進歩

→音声認識に必要な音響・言語モデル（データが大容量化）

音声認識の難しいところ
１．環境面
　　周りの雑音、残響音、他者の発話による
　　認識精度の低下
２．言語面
　　話し方がいい加減（主語、助詞などの省略）
　　「え～」、「あ～」
　　日本語の難しさ

音声認識の難しいところ１環境面
　　周りの雑音、残響音、他者の発話による
　　認識精度の低下
　→対応策；音声区間検出・雑音抑圧
　　　技術統合：情報（統計モデル）共有
　　対応策：残響抑圧
　　　分離して除去

ちょっと脱線：逆転の発想
・本来は音をクリアにすることを目的として残響抑圧を研究会は湯
・残響を分離し、残響を利用することに活用できるのでは
　　　→残響制御：コンサートホール
　　　　　音をよりリアルに表現
　　　　　日本オーディオ協会賞の協会対象

　　対応策：他者音声の分離
・マイクロフォンアレイ技術（インテリジェントマイク）
　　声色で話者を特定
　　　↓
　　それぞれを抽出して別個に音声識別
　　できるのがベスト・・・だが現状では難しい

音声認識が難しいところ②言語面
→音声認識は、一語一語の認識、及び単語の並び
　　→対応策：音響・言語モデルの拡充
　　チューニング：探索範囲を増やしていく
　　発話音声と発話内容のできストを
　　たくさんモデルに追加していくことで、認識率の向上につながる
　　　→モデルが大きくなる：探索時間増える
　　→対応策：ＷＦＳＴ音声認識モデル

ＷＦＳＴ
　　重みつき有限状態トランスデューさー
　　　状態と遷移確率：有限オートマトン
　　　　声の特徴量→文をダイレクトに

効率的な改善サイクル
　音声認識の工場には、チューニングが重要
　チューニングには、発話音声と発話内容のテキストが必要
　発話内容のテキストは人手で書き起こし
　　　→時間がかかる
　Ｇｏｏｇｌｅ
　　　検索内容＋クリック＝自動チューニング

音声認識の活用例
　医師向け電子カルテ入力システム
　自治体議事録作成
　　　：
　　非リアルタイムで対応可能なもの
　　認識する言葉が限定されているものがほとんど

新たなチャレンジ
　　自由文－定型文
　　リアル－非リアル

チャレンジ先
　　話し言葉＆リアルタイムが求められる
　　役に立つ
　　おんせい識別に適切な環境

→特別支援学校（ろう学校）

実証実験内容
・手話では伝えきれない日本語を教えるのに利用
・ＮＴＴの音声認識エンジン利用「こえみる」

こえみるの特徴
・ろう学校の授業中の発話音声を利用
・教科書データ中心などなど。

実証実験システム、授業模様、

結果
　先生の声を文字化することで教育の一助となることを確認
　日本語の語彙不足
　　１月１日の手紙→年賀状
　黒板に書く手間
　短冊がいらない
→次年度商用化予定

音声認識の今後の展望（妄想）
・自由会話に対する音声認識
・話者特定による複数話者の音声認識
・自動チューニング
・音声認識と通訳（日本語⇔英語など）の組み合わせ
・対話機能との組み合わせ
・機械に向かって話すことの一般化（ロボット？インターフェース）

まとめ
・音声認識普及の背景
・音声認識の技術的な仕組み、課題と対策
・実証実験内容

進化のポイント
・小さな／大きなことの積み重ね
・多角的な対応策
・効率的な改善サイクル
・逆転の発想も大事

デモ
Ｇｏｏｇｌｅは単語に強い、ＮＴＴは長い日本語に強い
しゃべるこつがある

Ｑ＆Ａ
ＷＦＳＴ
・文法解釈は？
　→もともと入っていない（あたかも入っているようだけど）
・逆は？
　発話音声という分野。それを人間ぽく聞かせるのは別の技術
　　→ゆらぎを入れる
・スマホでいける？
　技術的にできるけど、クラウドに揚げたい
・試行錯誤
　仕組み的には試行錯誤、結果はシンプル
　マシンのスペック：シンプル
・言語モデルのインプット
　シチュエーションを認識するのはやろうとしている
・方言
　標準語のみ対応。イントネーションの違いは認識
　言葉が違う場合、それ専用のモデルがいる
・感情に対しては？
　音声認識とあわせて、にこにこ！とかつけたりする研究あり

ランキングに参加中。クリックして応援お願いします！

記事一覧 | 画像一覧 | フォロワー一覧 | フォトチャンネル一覧

日	月	火	水	木	金	土
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

アクセス
閲覧	1,892	PV
訪問者	521	IP
トータル
閲覧	34,875,369	PV
訪問者	8,703,255	IP
ランキング
日別	1,035	位
週別	572	位

	【PR】プロ直伝・dポイントをザクザクためる術
	【PR】安い＆大量の「訳あり商品」がヤバい！
	【コメント募集中】「ご飯をおわんに盛り付ける」何と言う？
	訪問者数に応じてdポイント最大1,000pt当たる！
	dポイントが当たる！無料『毎日くじ』

ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです（たま～にコンピューター関係も）

音声認識技術と活用例

カレンダー

ブログランキング

アクセス状況

プロフィール

最新記事

カテゴリー

最新コメント

バックナンバー

ブックマーク

goo blog おすすめ

goo blog お知らせ

ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです（たま～にコンピューター関係も）

音声認識技術と活用例

カレンダー

ログイン

ブログランキング

アクセス状況

プロフィール

最新記事

カテゴリー

最新コメント

バックナンバー

ブックマーク

goo blog おすすめ

goo blog お知らせ