ASCII.jpさんがゆっくりちゃんボイスを製作なさった、つまりお父さんに当たる方である”山崎信英”さんに取材して来たときのお話。
ページが分かれていて読むのが大変だと思いましたので全部まとめました。
ゆっくりちゃんが好き!とかDTMに興味があるよ!っという人は是非読んだ方が良いと私は思います。
初音ミクと「ゆっくり」の声、何が違う? アクエスト社に聞く
ニコニコ動画好きなら、東方Projectの派生キャラクター「ゆっくり」の声はご存知のはず。
「SofTalk」(ソフトーク)という無償ソフトを使って作られた、独特の間延びした口調はまさに「ゆっくり」としか言いようがないわけだが、
そのソフトークが使っている音源ライブラリの名を「AquesTalk」(アクエストーク)という。
またUTAUのデフォルト音声として有名な「唄音ウタ」、通称デフォ子の音源も、実はこのAquesTalkだ。
AquesTalkは株式会社アクエストが開発し、無償頒布している音声ライブラリ。
元来組み込み向けに開発されたため、非常に容量が小さい。現在はAquesTalk2に発展したが、
それでも音声データ込みでわずか約50KBという軽さ。これは競合するものがない。
合成音声一筋二十有余年
―― まず山崎さんについて教えてください。
山崎 私は大学を卒業してから、ずーっと音声合成しかやってないんです。大学は音声認識の研究で卒業しました。
そして就職して最初に与えられたテーマが音声合成だったんです。だからここ二十数年間は、音声合成しかやっていない。音声合成バカですね。
―― 音声合成って何が面白いんですか?
山崎 純粋な自然科学ではないことです。音声は生身の人間が研究対象になってくるので、割り切れない部分が多い。
それと有難かったのは、研究者のテーマは、時代が進んでいくうちに変えることを余儀なくされるケースが多いんですけど、
音声にはそれがなかった。コンピュータが世の中に出た当初から、研究はされているんですけどね。
―― 具体的にはどういう研究をしているんですか?
山崎 私がやっているのはテキスト音声合成「Text To Speech(TTS)」と呼ばれている分野ですね。
―― いわゆる読み上げですよね。
山崎 学会レベルでTTSは基本のメインテーマなんですけど、初音ミクが知られる以前は「ああ、喋ったことを文字にしてくれるあれね」みたいに、
音声認識と間違えられてましたね。
―― その初音ミクですが、VOCALOIDについてはどう思いましたか?
山崎 昔からヤマハさんが綺麗に歌わせる技術を持っているのは知っていましたが、これだけヒットするとは思いもよらなかったですね。
―― 最初は専用のボードを作ってましたよね。
※ 専用のボード : ヤマハ PLG100-SG(1997年発売)。フォルマントシンギング音源を搭載し、
入力した歌詞で歌わせることができた。MIDI音源やシンセサイザーのプラグインボードとして販売。
山崎 90年代でしたっけね。私のやっているTTSとは直接競合はしないのですが、最近VOCALOID Flexのようなものが出てきて、
少しずつお互いの領域を侵食しあってる感じですよね。昔は喋る方はやらないって聞いていたのに……。
―― 歌も喋りも同じ音声なんでしょうがないですよね。
山崎 でも負けませんから!
ゆっくりの中の人はAquesTalk
―― おそらくニコニコ動画を観ている層には、AquesTalkの音声は「ゆっくり」でおなじみだと思うんですけど。
山崎 ただSofTalkばっかり有名になっちゃってるなぁ、というのはありますけどね。
―― あ、やっぱり。
山崎 「ゆっくりの声はSofTalkの声だ」って言われちゃうと、えーっ、ちょっとなー、とは思いますけどね。SofTalkはAquesTalkのフロントエンドなので。
※ SofTalk :
無償頒布のテキスト読み上げソフト。何度も言うように音源はAquesTalk
―― じゃあそこだけ太字で書いておきましょうか?
山崎 いやいやいや! これだけ有名にしていただいたのは、SofTalkのおかげです。
―― SofTalkのあの独特のイントネーションはAquesTalkの地声と思っていいんですか?
山崎 アクセントの記号を入れればちゃんと読むはずだし、AquesTalkはその機能を持っているんです。でも、
そうじゃない方がいいらしいですね。あの独特の平坦な声が、あのキャラクターと合ってるし。
―― 音声合成方式の違いを教えてください。たとえばVOCALOIDと比べられますか?
山崎 VOCALOIDはきちんとサーベイしていないので分からないんですが、うちのは古典的な音声合成ですね。
―― 古典的というと、たとえばCHATRとか?
山崎 あっ、詳しいですね。CHATR系は今の主流で、コーパスベースとも言われています。
HOYAさんのVoiceTextやエーアイさんが使われている技術は、あの流れなんですね。
大量のデータベースの中から合成する文に合う、なるべく長い単位の音素を探し出してきて、くっつけるというやり方なんです。
※ CHATR : チャター。ATR音声翻訳通信研究所のNick Campbellが開発した音声合成技術。人の声を録音して音声データベースを作り、つなぎ合わせて音声を作成する
※ コーパスベース : corpus。自然言語処理のために大量の文章を蓄積した用例データベースのこと
※ VoiceText : Pentaxの同名商品として知られていたものと同じ。ペンタックス株式会社とHOYA株式会社の合併によりHOYA製品となった
※ エーアイ : 合成音声技術を開発している会社。同社の技術「VOICELOID」を使った製品として、AHS「月読アイ」などが有名。
―― なるほど。小さな容量は実現できないですよね。
山崎 それに比べてうちのやり方は、非常に細かい単位で、たとえば「あ」「い」「う」「え」「お」のような音素を持っていて、それをつないで行くものです。
―― UTAUに近いんですか?
山崎 近いですね。最終的なシンセサイザーの方式は違っていて、UTAUは時間領域で処理されていると思うんですが、
うちのは周波数領域で処理しています。どちらでやっても最終的には同じなんですが、周波数領域に移してパラメータに変換するかしないかが、
ひとつのポイントになってくると思います。
※ 時間領域 : オシロスコープで可視化できる波形のように、信号を時間軸で解析して扱うこと
※ 周波数領域 : スペクトラムアナライザで可視化できる周波数分布のように、信号を周波数を軸に解析して扱うこと
他のメーカーは写真だけど、うちはイラスト
―― つまりAquesTalkはパラメータに変換していると。
山崎 コーパスベースは波形そのままでパラメータ化しません。
逆にパラメータ化すると、たとえば10個くらいの数値で波形を表現するんで、どうしても情報は欠落するんですね。
本来持っている情報が、そこで失われてしまうんですけど。
―― 音源は容量を食う録音ファイルではなく、軽いベクトルデータのようなものだと考えていいですか?
山崎 そう考えてもらっていいです。データが持っているのは、スペクトラム包絡と呼ばれているもののパラメーターです。
人の声に含まれるピッチ成分を取り除いたピークの部分をプロットしたもので、基本的にはフォルマントの山を想定しています。
「か」のように時間的遷移の必要なものは、その遷移のデータも含んでいます。
※AquesTalkは「変化していく声のかたち」をデータとして記録しているものという。だから軽い
※ スペクトラム包絡 : 時間軸上の波形を周波数軸上(スペクトラム)に変換した際の概形
―― パラメータ化するというのは、音を抽象的に表現するということだと思うんですが、実際のデータはどうなっているんですか?
山崎 すべてのデータは実際の音声を参考にしながら、自分で作っています。特徴を掴みながら似顔絵を描くみたいな感じですね。
―― 僕も大学の授業で学生全員のフォルマント分布を調べたことはあるんですけど、同じ発音でも全員、まったくパターンが違うんですね。
山崎 違いますね。同じ人でも毎回違うんですよ。普通に話をしていても、前後の関係で全然違っちゃう。
何が正解なんてないんですよね。そこが一番難しいところですね。
―― たとえば昆虫や植物の図鑑なんかは、種の同定がしやすいように線画が必要なわけです。
写真より絵のほうが特徴を分かりやすく示せるから。それに近いのかな?
山崎 そのアナロジーは面白いですね。他のメーカーさんは写真だけど、うちはイラストだよってことですね。
究極のテーマは「自然じゃない合成音」
―― そのAquesTalkの音声ライブラリを使った、歌うVSTiがAquesToneですよね。
山崎 ちょっと時代遅れになっちゃってるから、自分も納得していないんですね。
根本的に作り直さないとあかんなと。音声合成の技術者としては、あの何言ってるんだか分からない発音は恥ずかしい。
―― じゃあ新しいバージョン作りましょうよ。
山崎 もし新しいAquesToneを出すのであれば、生身のボーカルを目指すんじゃなくて、機械の声を狙っていきたいんですよね。
―― それは大賛成だなあ。
山崎 昔から音声合成をやっていて、非常に思うところがあって。究極のテーマというのが「自然じゃない合成音」を作りたいんです。
世の中の合成音声関係者は「より自然になりました」って言ってしまうんだけど、じゃあ自然って何?
自然な合成音って何のこと? そう考えたときに、いかに人間に近づけるかということを目標にしている。
―― 今の合成音声はそっちの方向を向いていますよね。
山崎 そこから少し下がって、私個人としては、人間の真似をすることは止めにしましょうと。
聞きやすかったり、綺麗だったりすれば、人間に似てなくたって全然いいじゃん、というのが根本的な発想なんですよ。
―― 意味が通じて、心地よく聞こえればいいと。
山崎 たとえば活字というのは、人間の手書き文字に比べると、機械的ですけど読みやすい。
活字を見たときに、我々は何の違和感もなく受け取ることができますよね。こういったものが音声で作れないかなって。
―― あーっ、なるほど!
山崎 みなさん筆記体を目指していると思うんです。上手い人の文字や、誰かが書いたものを真似して再現しようという。
私は人間が喋った音声じゃないんだけれども、活字のような、見た目にすんなり受け入れられるようなものを、
最終的には作りたいんです。楽曲を作る人達が、ボーカルは入れたいんだけど、生の声じゃないんだよね、という。そういったイメージで。
―― それは面白いアプローチだと思いますね、音楽的にも。今のVOCALOIDの使われ方は人間の代用という側面が大きくて、
だったら人間でいいじゃないという話になってしまう。合成音ならではの表現というのはあまり考えられていないですね。
山崎 だから去年、一昨年なんかは活字の研究をしたんです。今でも分からないのが、明朝体のはね。
あれってどう考えたって自然ではないわけで。もちろん毛筆体ではあるけど、それとは違った独特の形じゃないですか。
―― 文字の識別がしやすいんですよね、ハネがあると。
山崎 あのデザインを考えた人はすごいなと。AquesTalk2にはフォントが使えるようにしました。
うちは音だからFontじゃなくて「Phont」なんですけど、それを編集したり入れ替えることでいろんな声が出せますよという。
―― ユーザー側で音がシンセサイズできるんですね。
山崎 でも、活字で言えば、まだ漢字を24×24ドットで表現しているようなものですよね。
それがいつになったらTrueTypeみたいなレベルに持っていけるのかは分かりません。ライフワークですね。
―― でも山崎さんも僕も、もう47歳じゃないですか。急がないと。
山崎 いつ死んでもおかしくないですからね。それ以前に、もっと人間の声とはなんぞや、という基礎研究をしてくれる人が出てくれないと。
たとえば「か」っていう音は、なぜ「か」として聞こえるのか。そこはほとんど研究されていないんですよ。
―― じゃ、そこもやりましょうよ。
山崎 やりますか、一緒に?
初音ミクと「ゆっくり」の声、何が違う? アクエスト社に聞く
上記様より引用(一部編集)