見出し画像

アイデアリズム idealism daydream

夏の自由研究 「AIはどこまで耳コピーできるのか?」 Basic Pitchさんとbear audioさんに「ドラゴンクエスト 序曲」を耳コピーしてもらった結果 2023年09月01日から09月17日

2023年09月01日から09月17日



 近頃、

AI(人工知能)ってスゴイ!!

 って、ちまたで大騒ぎになってるじゃない?
 じゃ、試しに、

AIに耳コピー(文字起こしの音楽版)をしてもらおっかなー

 ということで、


Basic Pitch (https://basicpitch.spotify.com/ )


bear audio (https://www.bearaudiotool.com/jp/mp3-to-midi )

 さんに頼んで「チョチョイのチョイ」っと音(音声ファイル)からMIDIファイルへ変換(まぁ、広義で耳コピー)してもらいました。

 お題はすぎやまこういち先生作曲の「ドラゴンクエスト 序曲」で、


・以前、私が編曲してGarageBand 2.0.2で作ったもの(ベースドラムなども入っている)


MSX2版「ドラゴンクエスト2(II) 悪霊の神々」のオープニングで実機録画したもの(ドラゴンクエスト1もドラゴンクエスト2もオープニング曲は同じ"ドラゴンクエスト 序曲"が使われている)
MSXは基本PSGという音源が使われていて「ピコピコ音の3和音(ノイズは使われていない)」だよー(FM音源PCM音源はかなり後になってから搭載されたのだが…)

 結果は上記の動画の通りで、

・Garage Band 2.0.2で作ったものは、Basic Pitchでは「ピアノ主旋律(メロディー)をなんとか拾えている」、bear audioでは「イロイロとカオス」
・PSGは、Basic Pitchでは「かなり聞き取れていて、いけてるッ!!」、bear audioでは「それなりに聞き取れている」

 最初に断りを入れておくとBasic Pitchの使い方として、


「single instrument」つまり1種類の楽器だけ、としている
・1番の日本語訳はおそらく「録音ボタンを押して(あなたが)コンピュータ(普通に考えてパソコンとかスマホ)に向かって歌を歌うか、1種類だけの楽器(ピアノ、ギター木琴など)の録音したもの(ファイル)を(下のピンクの四角に)ドロップします」

 なので、

・Garage Band 2.0.2で作ったものはピアノだけではなく、ベースやドラムなども入っているので「チョイとむちゃぶり
・まぁ、Basic PitchはAIだそうなので「多少のむちゃぶりはこたえてくれるかなー」

 と思いまして…。

 ここからは私の妄想なのですが、人間だと「ピアノが鳴ってる」とか「ドラムを叩いている」「ギター弾いてる」というふうに、

・人間は音色の聞き分けがなんとなくできていて、違いが分かる

 コンピュータはたぶんそうじゃなくて、

音の周波数(=簡単に言うと"音の高さ","音程","音階")、強さ、あえて言うと時間くらいしか分からない
・そんなわけで楽器の違い(音色の違い)は分からない(例えばピアノとギターの同じ高さの"ド"の区別ができない)ので「1種類の楽器だけに限定」

 かな?! と思ってみたりします。

 「音を可視化できるスペクトログラム(声紋)」で見てみると、


・Garage Band 2.0.2で作った「ドラゴンクエスト 序曲」のスペクトログラム
・縦軸が周波数(音の高さ)、横軸が時間、色の明るさが音の強度(強さ)

 これを拡大してみると、


・最初の出だしはピアノの「ソー、ソ」のみで他の楽器は鳴らしていない(ハ長調で作ったから出だしは「ソ」になる)
・このソは少し低い「ソ」でMIDIでは「G3」
G3の周波数はだいたい195.998Hz(音階周波数を参照してみてください)
・スペクトログラムが2つあるのはステレオ(左と右)だから

 スペクトログラムをじっくり見てもらうと、

G3しか鳴らしていないのに他の周波数もかなり混じってる

 これは簡単に説明すると、

・ほとんどの音とか声はイロイロな高さの音というか周波数が混じってる(詳しくは倍音とか楽音などを参照してみてください)


・動画は最初にピアノのG3(ソ)を普通に鳴らして、次にピアノの音の「基音(G3=195.998Hz)以外の周波数をゴッソリ削除」してみた例
・基音以外の周波数を削除してしまうと「ポーポポーポ…」とピアノっぽくは聞こえなくなる(ほぼ正弦波の音になる)
・というわけで「G3(195.998Hz)の周波数が一番大きな音」は確かなのだけれど、それだけではピアノの音とは感じられず「他の小さな音の周波数」を全部まるまる含めて「ピアノのG3(ソ)の音だよね」と人間には聞こえる

・重ねて言うと、正弦波以外の音色は「様々な音の成分(周波数)」によってピアノだの、とか、ドラムだの、とかって人間は感じたり分かったりする。 たぶん…(これ以上の説明はムリです…)。

 話を戻すと、「ドラゴンクエスト 序曲」の最初の出だしのピアノのメロディの「G3G3」の次はド(C4,261.626Hz)、レ(D4,293.665Hz)、ミ(E4,329.628Hz)、ファ(F4,349.228Hz)、ソ(G4,391.995Hz)、ド(C5,523.251Hz)…と続くのですが(ちなみにラ=A4は440Hzで、シ=B4は493.883 Hz)、

・Garage Bandで作ったものは、出だし以外はドラムとかベースなども入れちゃってる!!
人間はピアノ、ドラム、ベースなどの音を同時に鳴らしたり重ねたりしても音色自体が聞き分けられるから、そのままメロディ(ピアノ)を追える
コンピュータは音色の違いが分かんなくて音の高さ(周波数)で判断しているだけだから、違う楽器を合奏してしまうとチョッと複雑すぎる

 そういうわけで、


・bear audioのアルゴリズム(プログラムの処理の仕方や動作)は、おそらく「C4=261.626Hz、D4=293.665Hz…というふうに音階はわりと決まった周波数なンだから音階の周波数付近で鳴っている音は全部ノート(音符)に変換しちゃえッ!!」
・Basic PitchはAIなためか、bear audioよりも賢くて「全部の音を一緒くたにノートへ変換するのではなく、逆に音をいかにノートにしないか(要は主要な音以外を省く)」

 そんな感じに見えるんです…私には。

 一方でPSGの場合は「1種類の楽器のみ」なのでスペクトログラムを見ると、


・どの周波数の音(まぁ、一言で音階)が鳴っているのか、わりとハッキリしている
ほぼピアノロールって感じ

 そういうことで、


・bear audioでも聞けるレベルの変換だったし、AIのBasic Pitchは人間の耳コピーに近い「自然な感じで」ノートに変換ッ!!

 まとめとして、

・今のところ「1種類の楽器のみの演奏(例えばピアノのソロ演奏など)」だったらAIに耳コピーを頼んでも良いかもしれない
・まだ、ところどころおかしな音が入っていたり、逆に音が抜けていたり、拍子が違っていたりと人間レベルの正確性では無いので人間による修正が少し必要だねー


・まじめに考えると「ピアノのソロ演奏」とかッて、たぶん「すでに楽譜があってそれを弾いてると思う」ので楽譜を買っちゃって、打ち込むなり弾くなりしてしまえば解決してしまう…
・っつーか、この採譜合ってるンかなぁ?! (私は楽譜が読めないし楽器を弾くこともできないし「ドラゴンクエスト 序曲」の楽譜も持っていないから、かなり怪しいゾッ!!)
・そもそも「楽譜ってほぼデジタル」だから、楽譜があれば、わざわざAIを使わなくてもスキャナOCRで簡単にMIDIへ変換できちゃうしッ!!
・なので、ピアノのソロ演奏などをMIDIへ変換しますってこと自体が「正直、需要があるンかなぁ?」とか…

メジャーな曲はほぼ楽譜化されていてフツーに売ってる(今回のドラゴンクエストも楽譜はフツーにamazonとかで売ってる)ので「楽譜化されていないようなニッチな曲をどうしても楽譜化したい、とか、MIDIに打ち込みたい」人向けかもッ!!
・いやー、今回Basic Pitchやbear audioで遊んでみて「結構楽しかった!!」

 まぁ、耳コピー自体は生成AIというよりもAI分析なので、

・なんか地味っちゃ地味だから研究や学習が進むのか、そもそも需要があるンか、どーなンだ?! そこらへん…

 そんな今日この頃。
名前:
コメント:

※文字化け等の原因になりますので顔文字の投稿はお控えください。

コメント利用規約に同意の上コメント投稿を行ってください。

 

  • Xでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

最新の画像もっと見る

最近の「音楽イロイロ」カテゴリーもっと見る

最近の記事
バックナンバー
人気記事