カセットテープのデジタル化がほぼ終了したので、いくつか得られた知見をまとめます。
<ノイズについて>
藤本健さんの「Digital Audio Laboratory」の以下の記事がまとまっていて、かつノイズ音のサンプルWAVファイルがあるのでわかりやすいです。
http://av.watch.impress.co.jp/docs/20010702/dal17.htm
カセットテープで代表的なのは
ヒスノイズ シャーという高い音
ハムノイズ 冷蔵庫が運転中に出しているような「ブーン」という低音
クラックルノイズ レコードの「プチプチ」音
クリックノイズ レコードの傷で「がりっ」となる音
ポップノイズ レコードに針を落としたときの「ポン」という音
クリップノイズ 録音時の音量が大きすぎるときの「バリバリ」という音
など。
<ノイズを取り除く>
アナログデータをデジタル化することによって何がよくなるかというと、加工がしやすくなるという点です。
たとえば、フリーソフトや市販ソフトで、上記のノイズをカットできるような機能をもつものがあります。
これひとつで全部OKというソフトは知りませんが、たとえばCreative Media社のPC用サウンドボードを買うとダウンロードできるCreative Media Toolboxでは、ヒスノイズを取り除くことができます。
クラックルノイズやクリックノイズ、ポップノイズは波形編集ソフト(たとえばCreative Media社のCreative WaveStudioなど)で編集してしまえば消せますが、一般人には敷居が高いかもしれません。(波形編集ソフトで音を再生しながら、異音がするところを特定して、そこを編集していくという気の長い作業が必要。専門の業者さんがいるくらいです。)
波形編集ソフトでは、カセットテープに録音された音量が小さい場合でも、クリップノイズがでないぎりぎりまで音を大きくしてくれる機能(ノーマライズ)があります。
PCに取り込んだデジタルデータを、ソフトをつかってヒスノイズを取り除いてノーマライズしておくだけでもだいぶ聞きやすくなります。
<デジタル化とは>
カセットテープには、録音した機器の周波数範囲内のデータが音圧レベルに応じて記録されています。
これをデジタル化するときには、1秒間に何回刻みでアナログデータを採取するか、記録の幅をどれくらいにするかがが鍵になるそうです。前者をサンプリング周波数、後者を量子化ビット数というそうです。
人間の耳はおおよそ20Hzから20000Hzの範囲の音が識別可能だそうです。
デジタルデータでこの範囲の音をノイズなしに適切に分離しようとすると、サンプリング周波数が20000の倍の40000Hz程度になります
大体の目安はこんな感じ。
電話 11025Hz
AMラジオ 22050Hz
CD 44100Hz
音圧のほうはあまりシビアに識別できないようです。量子化ビット数は、おおよそ16ビット(0000000000000000~1111111111111111、10進でいうと0から65535)で充分だそうです。ダイナミックレンジでいうと96db相当らしい。量子化ビット数が24ビットだとダイナミックレンジ144db相当らしい。
CDは16bitだそうです。
<もともとの録音したときの機材がなんだったのか>
もともとの録音されたときの状態がどうだったのかによって、どのレベルまでデジタル化できるのかがきまります。
たとえばカセットデッキの周波数特性は20~15000ないし20000Hzですが、カセットレコーダの中には200~8000Hzのものがあります。
Dolby-BやCを搭載しているものならダイナミックレンジは60db程度、dbxなら110db程度でしょうか。
なので、先ほどの結果とあわせると、
音源の録音されたときに使われた機材の周波数×2倍のサンプリング周波数以上のサンプリング周波数でもってデジタル化しても意味がない、となりますから、
カセットテープでは、サンプリングレートは44100Hzまたは48000Hzが適当な線になるのでしょう。ものによっては22050Hzもあるかも。
また、Dolby-BやCで録音されているのなら16ビット、dbxなら24ビットでデジタル化するのが妥当な線なんでしょう。
ただし、これは録音したときの機材=再生機材とした場合であって、再生機材の特性が録音時より劣る場合は、それに依存して低いほうになってしまうと思われます。
<圧縮する>
以上は、音をそのまま無圧縮でデジタルデータにする場合、WAVファイル(リニアPCM)の品質の話になります。
一方、デジタルの特性をつかって音声ファイルを圧縮することができます。
こうして作られているのがMP3ファイルやAAC(MP4)ファイルです
<ビットレートってなによ>
1秒間あたり何ビットのデータ、という意味です。
WAVファイルでCD相当の音声ファイルは、ビットレートでいうと1411kbpsのデータ量だそうです。
じゃ、192kbpsとかいったら、WAVファイル(CD相当)の8分の1くらいのデータ量になっている(間引かれている)のは確かなんですが、これが人間の耳ではあまり聞き分けられない。
MP3やAACで圧縮するときには、人間の耳が鈍感な高周波数帯について大胆にデータ量をへらしているみたいです。
これがMP3ファイル256kbpsでWAVファイルとの差に気づく人もいれば、128kbpsでも気づかない人もいるようです。だいたい平均すると、MP3ファイル192kbpsとWAVファイルとの差に気づかないくらいでしょうか。
人間の声だったらそんなに高い周波数成分はないから、MP3ファイル128kbpsでも違和感は無いんでしょうね。
音楽の場合、自分が聞いて違和感のないビットレート(おおよそ128kbpsから256kbps)に圧縮すればよろし、ってことになると思います。
<ノイズについて>
藤本健さんの「Digital Audio Laboratory」の以下の記事がまとまっていて、かつノイズ音のサンプルWAVファイルがあるのでわかりやすいです。
http://av.watch.impress.co.jp/docs/20010702/dal17.htm
カセットテープで代表的なのは
ヒスノイズ シャーという高い音
ハムノイズ 冷蔵庫が運転中に出しているような「ブーン」という低音
クラックルノイズ レコードの「プチプチ」音
クリックノイズ レコードの傷で「がりっ」となる音
ポップノイズ レコードに針を落としたときの「ポン」という音
クリップノイズ 録音時の音量が大きすぎるときの「バリバリ」という音
など。
<ノイズを取り除く>
アナログデータをデジタル化することによって何がよくなるかというと、加工がしやすくなるという点です。
たとえば、フリーソフトや市販ソフトで、上記のノイズをカットできるような機能をもつものがあります。
これひとつで全部OKというソフトは知りませんが、たとえばCreative Media社のPC用サウンドボードを買うとダウンロードできるCreative Media Toolboxでは、ヒスノイズを取り除くことができます。
クラックルノイズやクリックノイズ、ポップノイズは波形編集ソフト(たとえばCreative Media社のCreative WaveStudioなど)で編集してしまえば消せますが、一般人には敷居が高いかもしれません。(波形編集ソフトで音を再生しながら、異音がするところを特定して、そこを編集していくという気の長い作業が必要。専門の業者さんがいるくらいです。)
波形編集ソフトでは、カセットテープに録音された音量が小さい場合でも、クリップノイズがでないぎりぎりまで音を大きくしてくれる機能(ノーマライズ)があります。
PCに取り込んだデジタルデータを、ソフトをつかってヒスノイズを取り除いてノーマライズしておくだけでもだいぶ聞きやすくなります。
<デジタル化とは>
カセットテープには、録音した機器の周波数範囲内のデータが音圧レベルに応じて記録されています。
これをデジタル化するときには、1秒間に何回刻みでアナログデータを採取するか、記録の幅をどれくらいにするかがが鍵になるそうです。前者をサンプリング周波数、後者を量子化ビット数というそうです。
人間の耳はおおよそ20Hzから20000Hzの範囲の音が識別可能だそうです。
デジタルデータでこの範囲の音をノイズなしに適切に分離しようとすると、サンプリング周波数が20000の倍の40000Hz程度になります
大体の目安はこんな感じ。
電話 11025Hz
AMラジオ 22050Hz
CD 44100Hz
音圧のほうはあまりシビアに識別できないようです。量子化ビット数は、おおよそ16ビット(0000000000000000~1111111111111111、10進でいうと0から65535)で充分だそうです。ダイナミックレンジでいうと96db相当らしい。量子化ビット数が24ビットだとダイナミックレンジ144db相当らしい。
CDは16bitだそうです。
<もともとの録音したときの機材がなんだったのか>
もともとの録音されたときの状態がどうだったのかによって、どのレベルまでデジタル化できるのかがきまります。
たとえばカセットデッキの周波数特性は20~15000ないし20000Hzですが、カセットレコーダの中には200~8000Hzのものがあります。
Dolby-BやCを搭載しているものならダイナミックレンジは60db程度、dbxなら110db程度でしょうか。
なので、先ほどの結果とあわせると、
音源の録音されたときに使われた機材の周波数×2倍のサンプリング周波数以上のサンプリング周波数でもってデジタル化しても意味がない、となりますから、
カセットテープでは、サンプリングレートは44100Hzまたは48000Hzが適当な線になるのでしょう。ものによっては22050Hzもあるかも。
また、Dolby-BやCで録音されているのなら16ビット、dbxなら24ビットでデジタル化するのが妥当な線なんでしょう。
ただし、これは録音したときの機材=再生機材とした場合であって、再生機材の特性が録音時より劣る場合は、それに依存して低いほうになってしまうと思われます。
<圧縮する>
以上は、音をそのまま無圧縮でデジタルデータにする場合、WAVファイル(リニアPCM)の品質の話になります。
一方、デジタルの特性をつかって音声ファイルを圧縮することができます。
こうして作られているのがMP3ファイルやAAC(MP4)ファイルです
<ビットレートってなによ>
1秒間あたり何ビットのデータ、という意味です。
WAVファイルでCD相当の音声ファイルは、ビットレートでいうと1411kbpsのデータ量だそうです。
じゃ、192kbpsとかいったら、WAVファイル(CD相当)の8分の1くらいのデータ量になっている(間引かれている)のは確かなんですが、これが人間の耳ではあまり聞き分けられない。
MP3やAACで圧縮するときには、人間の耳が鈍感な高周波数帯について大胆にデータ量をへらしているみたいです。
これがMP3ファイル256kbpsでWAVファイルとの差に気づく人もいれば、128kbpsでも気づかない人もいるようです。だいたい平均すると、MP3ファイル192kbpsとWAVファイルとの差に気づかないくらいでしょうか。
人間の声だったらそんなに高い周波数成分はないから、MP3ファイル128kbpsでも違和感は無いんでしょうね。
音楽の場合、自分が聞いて違和感のないビットレート(おおよそ128kbpsから256kbps)に圧縮すればよろし、ってことになると思います。