ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

音声認識技術と活用例

2014-03-22 09:34:50 | ネットワーク
きのう(3/21)、産業技術大学院大学に行って

InfoTalk
音声認識技術と活用例について
   NTT 研究企画部門の人

の講演を聴いてきた。その内容をメモメモ




NTTの研究所 12個、たくさん、幅広く

・音声認識とは
・音声金式の仕組み
・音声認識の活用事例
・音声認識を活用した実証実験
・デモ

音声認識が拡大している背景
・スマートフォンの普及(約50%が利用)
・キーボードからタッチパネル
  使ってみると
    誰もがスムーズに使えるものではない
    ブラインドタッチができない
→より自然なインだーフェース(ナチュラルインターフェース)
 意外と使える

音声認識利用の歴史
・話者特定で単語のみ(1970年度)
  →特定単語の音声認識
・パソコン用音声入力ソフトウェアやカーナビ(1990年代)
  →特定文章の音声認識
・育成シミュレーションゲーム せが しーまん(1999)
  →認識率をごまかしたインターフェース
・一般商品として有名となったのが
  Google音声検索(2009)
  Siri(日本語2012英語2011)
  しゃべってコンシェル(2012)
→利用目的は、コマンド投入や検索キーワード

音声認識
・人の声を文字に億変える仕組み
  声をにんしきさせるだけでなく、
  漢字への変換も必要

音声認識の仕組み
 音声認識エンジン(確からしい文の探索)
  音響モデル:音の波形データを集めたデータ
  言語モデル:単語とその並び方の情報をあつめたデータ

音声認識「技術」が進歩した背景
・コンピューター、ネットワークの高速化・大容量化
・クラウドにより集中管理
・ビッグデータ処理技術の進歩

→音声認識に必要な音響・言語モデル(データが大容量化)

音声認識の難しいところ
1.環境面
  周りの雑音、残響音、他者の発話による
  認識精度の低下
2.言語面
  話し方がいい加減(主語、助詞などの省略)
  「え~」、「あ~」
  日本語の難しさ

音声認識の難しいところ1環境面
  周りの雑音、残響音、他者の発話による
  認識精度の低下
 →対応策;音声区間検出・雑音抑圧
   技術統合:情報(統計モデル)共有
  対応策:残響抑圧
   分離して除去

ちょっと脱線:逆転の発想
・本来は音をクリアにすることを目的として残響抑圧を研究会は湯
・残響を分離し、残響を利用することに活用できるのでは
   →残響制御:コンサートホール
     音をよりリアルに表現
     日本オーディオ協会賞の協会対象

  対応策:他者音声の分離
・マイクロフォンアレイ技術(インテリジェントマイク)
  声色で話者を特定
   ↓
  それぞれを抽出して別個に音声識別
  できるのがベスト・・・だが現状では難しい

音声認識が難しいところ②言語面
→音声認識は、一語一語の認識、及び単語の並び
  →対応策:音響・言語モデルの拡充
  チューニング:探索範囲を増やしていく
  発話音声と発話内容のできストを
  たくさんモデルに追加していくことで、認識率の向上につながる
   →モデルが大きくなる:探索時間増える
  →対応策:WFST音声認識モデル

WFST
  重みつき有限状態トランスデューさー
   状態と遷移確率:有限オートマトン
    声の特徴量→文をダイレクトに

効率的な改善サイクル
 音声認識の工場には、チューニングが重要
 チューニングには、発話音声と発話内容のテキストが必要
 発話内容のテキストは人手で書き起こし
   →時間がかかる
 Google
   検索内容+クリック=自動チューニング

音声認識の活用例
 医師向け電子カルテ入力システム
 自治体議事録作成
   :
  非リアルタイムで対応可能なもの
  認識する言葉が限定されているものがほとんど

新たなチャレンジ
  自由文-定型文
  リアル-非リアル

チャレンジ先
  話し言葉&リアルタイムが求められる
  役に立つ
  おんせい識別に適切な環境

→特別支援学校(ろう学校)

実証実験内容
・手話では伝えきれない日本語を教えるのに利用
・NTTの音声認識エンジン利用「こえみる」

こえみるの特徴
・ろう学校の授業中の発話音声を利用
・教科書データ中心などなど。

実証実験システム、授業模様、

結果
 先生の声を文字化することで教育の一助となることを確認
 日本語の語彙不足
  1月1日の手紙→年賀状
 黒板に書く手間
 短冊がいらない
→次年度商用化予定

音声認識の今後の展望(妄想)
・自由会話に対する音声認識
・話者特定による複数話者の音声認識
・自動チューニング
・音声認識と通訳(日本語⇔英語など)の組み合わせ
・対話機能との組み合わせ
・機械に向かって話すことの一般化(ロボット?インターフェース)

まとめ
・音声認識普及の背景
・音声認識の技術的な仕組み、課題と対策
・実証実験内容

進化のポイント
・小さな/大きなことの積み重ね
・多角的な対応策
・効率的な改善サイクル
・逆転の発想も大事

デモ
Googleは単語に強い、NTTは長い日本語に強い
しゃべるこつがある

Q&A
WFST
・文法解釈は?
 →もともと入っていない(あたかも入っているようだけど)
・逆は?
 発話音声という分野。それを人間ぽく聞かせるのは別の技術
  →ゆらぎを入れる
・スマホでいける?
 技術的にできるけど、クラウドに揚げたい
・試行錯誤
 仕組み的には試行錯誤、結果はシンプル
 マシンのスペック:シンプル
・言語モデルのインプット
 シチュエーションを認識するのはやろうとしている
・方言
 標準語のみ対応。イントネーションの違いは認識
 言葉が違う場合、それ専用のモデルがいる
・感情に対しては?
 音声認識とあわせて、にこにこ!とかつけたりする研究あり

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする