きのう(3/21)、産業技術大学院大学に行って
InfoTalk
音声認識技術と活用例について
NTT 研究企画部門の人
の講演を聴いてきた。その内容をメモメモ
NTTの研究所 12個、たくさん、幅広く
・音声認識とは
・音声金式の仕組み
・音声認識の活用事例
・音声認識を活用した実証実験
・デモ
音声認識が拡大している背景
・スマートフォンの普及(約50%が利用)
・キーボードからタッチパネル
使ってみると
誰もがスムーズに使えるものではない
ブラインドタッチができない
→より自然なインだーフェース(ナチュラルインターフェース)
意外と使える
音声認識利用の歴史
・話者特定で単語のみ(1970年度)
→特定単語の音声認識
・パソコン用音声入力ソフトウェアやカーナビ(1990年代)
→特定文章の音声認識
・育成シミュレーションゲーム せが しーまん(1999)
→認識率をごまかしたインターフェース
・一般商品として有名となったのが
Google音声検索(2009)
Siri(日本語2012英語2011)
しゃべってコンシェル(2012)
→利用目的は、コマンド投入や検索キーワード
音声認識
・人の声を文字に億変える仕組み
声をにんしきさせるだけでなく、
漢字への変換も必要
音声認識の仕組み
音声認識エンジン(確からしい文の探索)
音響モデル:音の波形データを集めたデータ
言語モデル:単語とその並び方の情報をあつめたデータ
音声認識「技術」が進歩した背景
・コンピューター、ネットワークの高速化・大容量化
・クラウドにより集中管理
・ビッグデータ処理技術の進歩
→音声認識に必要な音響・言語モデル(データが大容量化)
音声認識の難しいところ
1.環境面
周りの雑音、残響音、他者の発話による
認識精度の低下
2.言語面
話し方がいい加減(主語、助詞などの省略)
「え~」、「あ~」
日本語の難しさ
音声認識の難しいところ1環境面
周りの雑音、残響音、他者の発話による
認識精度の低下
→対応策;音声区間検出・雑音抑圧
技術統合:情報(統計モデル)共有
対応策:残響抑圧
分離して除去
ちょっと脱線:逆転の発想
・本来は音をクリアにすることを目的として残響抑圧を研究会は湯
・残響を分離し、残響を利用することに活用できるのでは
→残響制御:コンサートホール
音をよりリアルに表現
日本オーディオ協会賞の協会対象
対応策:他者音声の分離
・マイクロフォンアレイ技術(インテリジェントマイク)
声色で話者を特定
↓
それぞれを抽出して別個に音声識別
できるのがベスト・・・だが現状では難しい
音声認識が難しいところ②言語面
→音声認識は、一語一語の認識、及び単語の並び
→対応策:音響・言語モデルの拡充
チューニング:探索範囲を増やしていく
発話音声と発話内容のできストを
たくさんモデルに追加していくことで、認識率の向上につながる
→モデルが大きくなる:探索時間増える
→対応策:WFST音声認識モデル
WFST
重みつき有限状態トランスデューさー
状態と遷移確率:有限オートマトン
声の特徴量→文をダイレクトに
効率的な改善サイクル
音声認識の工場には、チューニングが重要
チューニングには、発話音声と発話内容のテキストが必要
発話内容のテキストは人手で書き起こし
→時間がかかる
Google
検索内容+クリック=自動チューニング
音声認識の活用例
医師向け電子カルテ入力システム
自治体議事録作成
:
非リアルタイムで対応可能なもの
認識する言葉が限定されているものがほとんど
新たなチャレンジ
自由文-定型文
リアル-非リアル
チャレンジ先
話し言葉&リアルタイムが求められる
役に立つ
おんせい識別に適切な環境
→特別支援学校(ろう学校)
実証実験内容
・手話では伝えきれない日本語を教えるのに利用
・NTTの音声認識エンジン利用「こえみる」
こえみるの特徴
・ろう学校の授業中の発話音声を利用
・教科書データ中心などなど。
実証実験システム、授業模様、
結果
先生の声を文字化することで教育の一助となることを確認
日本語の語彙不足
1月1日の手紙→年賀状
黒板に書く手間
短冊がいらない
→次年度商用化予定
音声認識の今後の展望(妄想)
・自由会話に対する音声認識
・話者特定による複数話者の音声認識
・自動チューニング
・音声認識と通訳(日本語⇔英語など)の組み合わせ
・対話機能との組み合わせ
・機械に向かって話すことの一般化(ロボット?インターフェース)
まとめ
・音声認識普及の背景
・音声認識の技術的な仕組み、課題と対策
・実証実験内容
進化のポイント
・小さな/大きなことの積み重ね
・多角的な対応策
・効率的な改善サイクル
・逆転の発想も大事
デモ
Googleは単語に強い、NTTは長い日本語に強い
しゃべるこつがある
Q&A
WFST
・文法解釈は?
→もともと入っていない(あたかも入っているようだけど)
・逆は?
発話音声という分野。それを人間ぽく聞かせるのは別の技術
→ゆらぎを入れる
・スマホでいける?
技術的にできるけど、クラウドに揚げたい
・試行錯誤
仕組み的には試行錯誤、結果はシンプル
マシンのスペック:シンプル
・言語モデルのインプット
シチュエーションを認識するのはやろうとしている
・方言
標準語のみ対応。イントネーションの違いは認識
言葉が違う場合、それ専用のモデルがいる
・感情に対しては?
音声認識とあわせて、にこにこ!とかつけたりする研究あり
InfoTalk
音声認識技術と活用例について
NTT 研究企画部門の人
の講演を聴いてきた。その内容をメモメモ
NTTの研究所 12個、たくさん、幅広く
・音声認識とは
・音声金式の仕組み
・音声認識の活用事例
・音声認識を活用した実証実験
・デモ
音声認識が拡大している背景
・スマートフォンの普及(約50%が利用)
・キーボードからタッチパネル
使ってみると
誰もがスムーズに使えるものではない
ブラインドタッチができない
→より自然なインだーフェース(ナチュラルインターフェース)
意外と使える
音声認識利用の歴史
・話者特定で単語のみ(1970年度)
→特定単語の音声認識
・パソコン用音声入力ソフトウェアやカーナビ(1990年代)
→特定文章の音声認識
・育成シミュレーションゲーム せが しーまん(1999)
→認識率をごまかしたインターフェース
・一般商品として有名となったのが
Google音声検索(2009)
Siri(日本語2012英語2011)
しゃべってコンシェル(2012)
→利用目的は、コマンド投入や検索キーワード
音声認識
・人の声を文字に億変える仕組み
声をにんしきさせるだけでなく、
漢字への変換も必要
音声認識の仕組み
音声認識エンジン(確からしい文の探索)
音響モデル:音の波形データを集めたデータ
言語モデル:単語とその並び方の情報をあつめたデータ
音声認識「技術」が進歩した背景
・コンピューター、ネットワークの高速化・大容量化
・クラウドにより集中管理
・ビッグデータ処理技術の進歩
→音声認識に必要な音響・言語モデル(データが大容量化)
音声認識の難しいところ
1.環境面
周りの雑音、残響音、他者の発話による
認識精度の低下
2.言語面
話し方がいい加減(主語、助詞などの省略)
「え~」、「あ~」
日本語の難しさ
音声認識の難しいところ1環境面
周りの雑音、残響音、他者の発話による
認識精度の低下
→対応策;音声区間検出・雑音抑圧
技術統合:情報(統計モデル)共有
対応策:残響抑圧
分離して除去
ちょっと脱線:逆転の発想
・本来は音をクリアにすることを目的として残響抑圧を研究会は湯
・残響を分離し、残響を利用することに活用できるのでは
→残響制御:コンサートホール
音をよりリアルに表現
日本オーディオ協会賞の協会対象
対応策:他者音声の分離
・マイクロフォンアレイ技術(インテリジェントマイク)
声色で話者を特定
↓
それぞれを抽出して別個に音声識別
できるのがベスト・・・だが現状では難しい
音声認識が難しいところ②言語面
→音声認識は、一語一語の認識、及び単語の並び
→対応策:音響・言語モデルの拡充
チューニング:探索範囲を増やしていく
発話音声と発話内容のできストを
たくさんモデルに追加していくことで、認識率の向上につながる
→モデルが大きくなる:探索時間増える
→対応策:WFST音声認識モデル
WFST
重みつき有限状態トランスデューさー
状態と遷移確率:有限オートマトン
声の特徴量→文をダイレクトに
効率的な改善サイクル
音声認識の工場には、チューニングが重要
チューニングには、発話音声と発話内容のテキストが必要
発話内容のテキストは人手で書き起こし
→時間がかかる
Google
検索内容+クリック=自動チューニング
音声認識の活用例
医師向け電子カルテ入力システム
自治体議事録作成
:
非リアルタイムで対応可能なもの
認識する言葉が限定されているものがほとんど
新たなチャレンジ
自由文-定型文
リアル-非リアル
チャレンジ先
話し言葉&リアルタイムが求められる
役に立つ
おんせい識別に適切な環境
→特別支援学校(ろう学校)
実証実験内容
・手話では伝えきれない日本語を教えるのに利用
・NTTの音声認識エンジン利用「こえみる」
こえみるの特徴
・ろう学校の授業中の発話音声を利用
・教科書データ中心などなど。
実証実験システム、授業模様、
結果
先生の声を文字化することで教育の一助となることを確認
日本語の語彙不足
1月1日の手紙→年賀状
黒板に書く手間
短冊がいらない
→次年度商用化予定
音声認識の今後の展望(妄想)
・自由会話に対する音声認識
・話者特定による複数話者の音声認識
・自動チューニング
・音声認識と通訳(日本語⇔英語など)の組み合わせ
・対話機能との組み合わせ
・機械に向かって話すことの一般化(ロボット?インターフェース)
まとめ
・音声認識普及の背景
・音声認識の技術的な仕組み、課題と対策
・実証実験内容
進化のポイント
・小さな/大きなことの積み重ね
・多角的な対応策
・効率的な改善サイクル
・逆転の発想も大事
デモ
Googleは単語に強い、NTTは長い日本語に強い
しゃべるこつがある
Q&A
WFST
・文法解釈は?
→もともと入っていない(あたかも入っているようだけど)
・逆は?
発話音声という分野。それを人間ぽく聞かせるのは別の技術
→ゆらぎを入れる
・スマホでいける?
技術的にできるけど、クラウドに揚げたい
・試行錯誤
仕組み的には試行錯誤、結果はシンプル
マシンのスペック:シンプル
・言語モデルのインプット
シチュエーションを認識するのはやろうとしている
・方言
標準語のみ対応。イントネーションの違いは認識
言葉が違う場合、それ専用のモデルがいる
・感情に対しては?
音声認識とあわせて、にこにこ!とかつけたりする研究あり