昨日(2月23日)
国立情報学研究所 市民講座 情報学最前線に行ってきて、
人間の声?それともコンピュータ?
音声情報処理におけるディープラーニング最前線
をきいてきたので、メモメモ
■あいさつ
・ビット君:声がある:きょう、出てくる
・資料について、Qカードについて
・講師の名前の訂正 たかき先生
■講義
・音声合成をメインに
・講義の概要
・音声情報処理技術
音声認識:会議録の書き起こし
音声検索:単語を検索
音声対話:SIri(返答返す)、あまぞんえこー
音声合成:画面の文字を読み上げる、ナレーション、ボーかロイド(歌声合成)
結構、いろんなところに・・
音声合成技術の普及、ディープラーニングによる性能向上
・テキスト音声合成
入力テキストを音声に変換
→カーナビ、ケータイ端末、エンタメ
・どんな音声(ベーシックな方法で合成)
英語サンプル(でも)
日本語サンプル:びっとくん(でも)
・音声合成:文章と音声の対応付け
言語処理
機械学習
信号処理
・言語処理
音素:単語より小さい音声の単位
→母音だけでなく、tとかkとかも
音素セット:母音、子音、半母音、特殊
→言語ごとに異なる。発音辞書
・形態素・アクセント
品詞、かかり受け:形容詞
→アクセント:単純につなげると不自然→アクセント結合
・信号処理:音声の音響的特長量抽出→波形
特徴量
大きさ、長さ、高さ、声色(こわいろ)
今回は高さと音色にフォーカス
・分析
スペクトル:周波数表現
短い音声区間を取り出す:短い区間では同じような形
周波数表現に変換
包絡を取ってくる
・声の高さ
基本周期:高い声は周期短い
・機械学習
テキスト→音声
音素、形態素、アクセント→音声波形または音声特徴量
言語情報を数値化
出力の● 25ミリ秒
ディープラーニングの線1本;出力y=W(変換)Xx(入力)
掛け算、足し算だけではない
W:全ての線の重みをまとめたもの
音声合成を実現する→適切なWを見つける
やりたいこと
6=wX2だったら、w=3、このwを見つけること
→ラーニング、誤差を小さく:学習
・ディープの部分
入力
中間層
出力
中間層がなければ、さっきと同じ
中間層:層を積み重ねたもの→すべてのwをもとめる
入力が変わる
多層のほうが複雑な学習が出来る
・様々なネットワーク
3層くらいあればディープと呼んでよい
→層が多いほうがいい?:
層が多いと誤差が伝わらなくなる
→学習難しい
最近は、ショートカットコネクションがでて、多層も出来る
・RNN(リカレントニューラルネットワーク)
一つ前の波形を次の波形に伝播(時系列データ)
・応用
音声の特徴量
ほうらく+基本周波数→波形などの研究
日々改良
女性の音声から男性に切り替え
韻律、抑揚
ビット君
・楽しい音声情報技術、楽しいディープラーニング