本稿は「紙書籍か、電子書籍か」の続編である。紙書籍の生活スタイルから電子書籍のそれへと変化させていくには、すでに一定量ある紙書籍の電子化という知識もあわせ持っておくと良いと思う。
今回はドキュメント・スキャンという世界にスポットを当て、やや専門的に掘り下げていく。ちょっとだけ気合いを入れて読んでいただければと思う。
INDEX
- 紙を電子化するということ
- ドキュメント・スキャナーという機器
- ファイル形式とデータの持ち方(1)
- ファイル形式とデータの持ち方(2)
- ファイル形式とデータの持ち方(3)
- アナログ作業
- 茶飲み話
- 関連リンク
紙を電子化するということ
本をはじめ新聞、書類などを電子化(デジタル化)してパソコンやスマホで取り扱えるようにするには、つまるところその対象となるものをデジタルカメラで撮影することになる。
しかしごくわずかな分量やメモ程度の場合ならともかく、ある程度キレイに記録しその画像を一定の形式にととのえられたデータとして利活用するには、ドキュメント・スキャンという世界を知っていると格段にレベルが向上する。
一般家庭で紙原稿を画像化する場合、たとえば多機能インクジェットプリンターのスキャナー機能を利用する方法が考えられる。
しかし数枚の原稿ならともかく、数十枚以上の原稿となると、毎回カバーを開け閉めしながらパソコン操作する作業は現実的ではない。それに複数枚(複数ページ)を一つのまとまりとして仕上げることはほとんど無理な相談といえる。
ドキュメント・スキャナーならADF(Automatic Document Feeder:自動原稿送り装置)があり、数十枚以上の原稿も連続的にスキャンできる。またスキャンされた画像を処理するソフトウェアによって、複数ページを抱え込んだドキュメントファイルとして一気に仕上げてしまうことも出来る。
なおスキャナーには特殊な用途向けの製品もあるが、本稿では原則としてADFがついていて原稿が次々と送られる自動搬送タイプのもの、それも一般家庭でも購入できる製品を想定する。
ドキュメント・スキャナーという機器
最近は「ファクシミリ」あるいは「ファクス」という言葉が死語になりかけているようだが、家庭用のFAX機を知っている方であれば、ほぼそれがドキュメント・スキャナーに近い。
そもそもFAX機もドキュメント・スキャナーも原理は同じ事で、原稿を自動搬送しながら機器内に固定されたカメラ(というか撮像素子)で読み取り、画像データ(電子データ)を生成する。
ただFAXの場合は、原稿をおもに「白か黒か」のみで検出して電話回線へ送り出しているが、ドキュメント・スキャナーはより柔軟で高度な読み取りを行い、電話回線ではなくパソコン(やスマホ)にデータを送り出している。そして即時にソフトウェア処理されてパソコンやスマホで扱える電子ファイルを生成する。
スキャナーによってデータ化されてしまえばデジタル処理が可能となるから、あとはパソコン上のソフトウェアでいかようにも加工・処理することが可能となる。
つまりドキュメント・スキャンの世界は、「スキャナーという機器と、パソコン上のソフトウェアの組み合わせで決まる」ということである。
ただ家庭向けに販売されているドキュメント・スキャナーは、こういった組み合わせを最適化して同梱し、「機器本体と制御ソフトウェア」というパッケージ製品として発売しているので、その組み合わせについてあまり気にすることはない。
とはいえこういった仕掛けを知っておけば、たとえば使い慣れた画像処理ソフトからスキャナーをコントロールするなどといった、自分なりの応用も発想できる。
ファイル形式とデータの持ち方(1)
さて、いよいよドキュメント・スキャンの専門領域に入っていく。
家庭レベルとはいえ、少し高度で賢いドキュメント・スキャンを目指すのであれば、「TIFF二値(てぃふ・にち)」というファイル形式を知っておくといい。二値はbi-tonal(バイ・トーナル)とも言われる。
これは簡単に言えば先述のFAXと同じ画像表現の方法である。原稿をある決められた精度の細かさ(解像度)で読み取り、その1点1点を「白」または「黒」と決めつけて記録する方式である。単純でありデータ圧縮効果も高いので、ファイルサイズが非常に軽くなる。
文字が主体の書籍や一般的な書類のスキャンは、考え方の順番としてまずこの「TIFF二値」をベースに置いておくといい。
ちなみに「TIFFはデータサイズが大きいからJPEGがいいと聞いたことがある」と言われる方もいるかもしれない。しかしそれは、デジカメ写真などの世界でフルカラーのTIFFを扱うことを想定している。TIFFは何も、色のあるなしを規定しているものではないからだ。
画像のある1点を白か黒だけで表すのなら、すなわち2種類の表現で済む。しかし、YMCの各色(イエロー、マゼンタ、シアン)それぞれに256段階の明るさを表現するとなれば、256×256×256で16,777,216種類を区別して表現しなければならない。ある1点を何通りの表現で表して、TIFFファイルとするのかが問題となるわけだ。カラー写真の場合TIFFが高品質であることは間違いないが、ファイルサイズがあまりにも大きいため、通常は適度にJPEG圧縮されたファイルが利用されているというわけである。
ただ逆に、TIFF二値がいつでも必ずJPEGより圧倒的に軽い、とは言い切れない事情もある。それは「データ圧縮の方式と圧縮率」そして「人間の見た目の印象」が関係するためだ。家庭向けスキャナーの場合、圧縮方式は選べないものの圧縮率は調整できるものが多い。
またカラースキャンを行う場合、白黒二値でのスキャンよりも低い解像度(粗い解像度)でも十分な見栄えになる(感じる)場合もある。
厳密にいうと、
- 画像のある1点を白黒二値で表現するか、それともYMCの256段階で表現するかという「表現」に関すること
- その表現をデジタル・データ化したあとどのように圧縮するかということ
- どんなファイル形式として保存するかということ
はそれぞれ別の話である。したがって白黒二値の画像であっても、さしてファイルサイズが小さくならない場合があり得るわけだ。
まとめると、
「一般にTIFF二値がもっとも単純な画像表現であり、そこから生成されるファイルサイズも小さくしやすい。文字中心の原稿なら読みやすさに優れた白黒二値を検討する意味はある。しかしいつでも必ずTIFF二値がファイルサイズをもっとも抑えられるとは限らない」
ということになる。
ファイル形式とデータの持ち方(2)
読者の中には、「スキャンした書類は最初からPDFにすればいいんじゃないの?」という疑問を持たれた方もいると思う。
PDFはもう世界標準と言ってもいいドキュメントファイル形式であるし、筆者も基本的にPDFで記録・保存している。
じつはPDFというファイル形式は、いわば中身が空っぽの「入れ物」ともいえる。PDFという空っぽの入れ物に、JPEGファイルを入れたり、TIFFファイルを入れたり、テキストファイルを入れたりしている、とイメージしていただければわかりやすい。
つまり白黒二値でスキャンし(自動的にデータ圧縮後)、PDFという入れ物に入れるという方法を採れば、データ量を抑えて、なおかつ扱いやすいPDFファイル形式になるということなのである。
こういった細かいコントロールはスキャナー本体ではなくパソコン側のソフトウェアで行う場合がほとんどだ。 メーカーによって言葉が異なるが、筆者が使用しているスキャナーの場合、「カラーモードの選択」という部分で「白黒」を選ぶと白黒二値で読み取ってくれるようだ。
ここで勘のいい方なら「白黒二値データをわざわざPDFという入れ物に入れる分、データサイズが大きくなるのでは?」と思われたはずだ。
確かに白黒二値データを圧縮後、マルチページTIFFファイル(後述)を生成するにとどめておけば、スキャン作業も早く済むしデータ量も少なくて済む。
しかし問題が二つある。
まずマルチページTIFFを扱えるソフトウェア(「ビューアー」ともいう)がPDFリーダー(すなわち無償の Adobe Acrobat Reader)ほど一般に普及していないということがある。
またPDFなら、画像としての文字をテキストデータとしてファイル内に保持することが可能だが、TIFFでは出来ないということもある。
そのためか家庭向けドキュメント・スキャナー製品では、初めからTIFFファイルを出力できない仕様になっているものが多いようだ。筆者のスキャナーでは「PDF形式」と「JPEG形式」でしか出力できない。
ちなみに業務シーンであれば、白黒二値で読み取ってデータ圧縮後にTIFFファイル化し、さらにOCR処理する(画像から文字データを読み起こす)といった流れを構成する場合もあるが、家庭レベルでは非現実的だ。
なお、Windows10の場合「Windowsフォトビューアー」というソフトウェアでマルチページTIFFファイルを開くことが出来る。筆者はパソコンからFAX送信をすることが時々あるため送信済みのFAX画像を残しているが、それらはみな白黒二値のTIFFファイル(拡張子はtif)である。
手順としては、開きたいTIFFファイルを右クリックして「プログラムから開く」→「Windowsフォトビューアー」となる。別の起動方法もあるにはあるが、Windowsの深層部を改変するようなレベルになるのでここでは触れない。
ファイル形式とデータの持ち方(3)
先述したようにJPEGというファイル形式で保存してはダメというわけではない。
ただ、ドキュメント・スキャンの場合、複数のページで一つのまとまりとしたい場合がほとんどだ。つまり一つのファイルに複数のページ(画像)を抱えさせる必要があるということだ。「マルチページ・ドキュメント・ファイル」と呼ぶ場合もある。
ところがJPEGファイルの場合はそもそもマルチページという考え方が存在しない。仮に書籍をスキャンしてJPEGに書き出した場合、100ページの本なら100個のJPEGファイルが並ぶことになり、とても現実的ではない。
ここまで少々回りくどかったかもしれないが、文字が主体の原稿を大量に(高速に)スキャンし、保存するということを考える場合、
- 白黒二値など出来るだけ簡素な読み取り設定にする
- 適度にデータ圧縮する
- マルチページTIFFまたはマルチページPDFとして書き出す
という作業整理が、いわば考え方の基本と言えるのである。
もちろんカラー写真が含まれていたりする場合はそこだけカラーでスキャンするのもいい。最近はカラーが使われているページを自動判別して、そのページだけカラースキャンしてくれる機能もある。
なお不必要にカラースキャンを多用したり、読み取り解像度を極端に上げすぎたりすると、スキャン速度の低下につながり、作業全体の時間が延びてしまう。もちろん出来上がったファイルのサイズも大きくなり、保存場所やそのコストにも影響してくる。
アナログ作業
ここまでパソコン上のデータ処理について説明してきたが、ドキュメント・スキャンはアナログな作業もかなり重要だ。
多くの紙原稿を毎分数十枚というスピードで読み取らせ画像データ化していく作業では、まず原稿をキレイに整えておくことが大切だ。
例えば米粒?がついていたり、付箋紙が貼ってあったり、紙の角が折れていたりするとスキャン作業の支障となるし、場合によってはスキャナーの故障にもつながる。
とくに書籍をバラしてスキャンする場合、背表紙側に製本時の接着剤などが残っていたりすると紙送りが停止してしまったり、2枚以上の原稿が同時に送られてしまう「重送(またはマルチ・フィード)」が発生したりする。
最悪の場合は原稿がしわくちゃになったり、破れてしまったりすることさえある。
重送については、家庭向けスキャナーでも自動的にストップし、スキャンを継続するかどうかパソコン側で制御できるようになっている(重送検知機能)が、そのたびに対処するのは面倒だし「ページ抜け」などのミスにもつながりやすい。やはり、原稿をキレイに整えておくに越したことはないのである。
そこで重宝するのが裁断器である。これがあるとないでは作業品質に雲泥の差が出る。スキャナー・メーカーでは裁断器とセットで販売している例さえある。
自宅で書籍などをスキャンすることを「自炊(じすい)」と呼んだりするが、大型電気店などへ行って「自炊コーナー」などがあれば、スキャナーとともに裁断機も並べられているだろう。
アナログ作業に関して最後に、「紙粉(しふん)」の問題に触れておく。
スキャナーを長い期間使っていると、非常に細かい紙の粉がゴムローラーを劣化させ、スリップしたり斜行(原稿が斜めに吸い込まれていく)したりするなどのミス・フィードが発生しやすくなる。清掃などの手入れとともに、ゴムローラーなどの消耗品の交換も気に留めておくといいかもしれない。
茶飲み話
最後に、茶飲み話的に業務シーンでのドキュメント・スキャンについてご紹介する。業務では物量が圧倒的に多く、スキャンされた画像はデータベース技術と連動させるような、規模の大きなシステムとなる。
たとえば携帯電話を新規購入(回線契約)する場合、当然だが身分証明書や多数の書類の取り扱いが発生する。携帯やスマホが一人一台というような状況では、物量として途方もない量になる。それらを紙の書類として保管したり、後から探し出したりするなどと言うのは非現実的だ(もちろんキーボードから入力するなんてありえない)。
そこで免許証などの身分証明書も含めて、すべてスキャンしてしまうのである。そして、例えばある回線契約者に関する書類をひとつの画像ファイルとして保管し、系列のショップなら全国どこからでも瞬時にその契約者に関する書類が参照できるようにしている。
最近は携帯電話も、書類郵送が一切ないかたちでパソコンやスマホから「新規購入」できるようになってきた。「eKYC」という技術のおかげだが、この場合は紙の書類は存在せず、契約希望者自身が初めからデジタルデータを作成してくれるので、そのデータをシステム側に流し込むだけである。身分証明書や顔画像もお客が一生懸命、事業者側の指示通りシステム入力(送信)してくれるわけだ。こんな場合は「ドキュメント・スキャン」は出る幕がない。
とはいえ、情報の発生時点で紙が使われるシーンはまだまだ世の中には多い。
宅配業界などでも似た様な状況がある。
全国の宅配便の取扱量は想像するだけでも膨大だとわかるが、これも複写式伝票が情報の発生源となる。ところがあんなペラペラの紙を高速スキャンしようとすると、おそらく破れてしまう。そこでゴムローラーで搬送するのではなく、風で飛ばすらしい。そうしていわば「シャッターが開きっぱなしの」画像素子の前で、次々とフラッシュ光を浴びせて高速撮影していくのだという。
もちろん宅配便も、初めからペーパーレスでデータ発生する場合が増えてきているはずだ。だとすれば将来的に、1千万から数千万円もする特殊な業務用スキャナーは要らなくなるのかもしれない。
関連リンク
ドキュメント・スキャナー