新聞スクラップなどを電子化する

2020年09月15日 | 情報・通信システム

紙の新聞などをもっと簡単にスクラップし、あとで活用できるようにする筆者流の方法をご紹介する。また紙の資料をデジタルデータ化すること一般についても技術的観点から解説する。

INDEX

紙資料をデジタル化するということ
ドキュメント・スキャンという世界
「文字」のスキャンとその加工
もっと手軽にスマホで
検索も深く考えすぎずに
読んで考えなければ意味がない
関連リンク

紙資料をデジタル化するということ

紙の資料をデジタルデータ化することは、すなわち「画像データ化」であり「テキストデータ化」であるといえる。書類をスマホのカメラで撮影することは画像データ化であり、一応はデジタル化したことになる。ただしこのままでは単なる画像であり、そこに見えている文字はあくまでも画像でしかない。人間は読み取れるかもしれないが、コンピュータは文字として認識してくれない。

そこで画像の中に文字を見つけ出し、コンピュータ処理できる文字データを生成する技術であるOCR（Optical Character Recognition：光学文字認識）が求められることになる。
人間は、たとえば本を手に取って読む場合、単なるインクの染みでしかない文字を目で捉えて認識し、自分が知っている文字のなかから当てはめて判定している。このステップをコンピュータで処理させることがOCRであると考えるとわかりやすい。

こういったふうに紙資料のデータは、画像データやテキストデータとしてコンピュータで取り扱えることになるのだが、それだけではあまり役に立たない。
少量のデータならともかく大量のデータになると、せっかくデジタル化したデータの中から、適切かつ迅速に必要なものを探し出すということが困難になる。そこで検索機能を整えることが重要になってくる。

このように、紙資料のデジタル化を考えるにあたっては、「画像化」「文字認識」「検索」という3つのポイントがあるということを理解しておくと、今後の見通しがクリアになってくる。

ドキュメント・スキャンという世界

ある程度詳しい人なら、ドキュメント・スキャナという製品を知っていると思う。一般家庭でスキャンといえば、プリンタ機能と一体となった製品を思い浮かべるかもしれないが、大量の紙資料をデータ化する場合、いちいちカバーを開け閉めして、一枚一枚スキャンをしているようではとても現実的ではない。
そこで、書類や紙のスキャンに特化した製品が重宝するということになってくる。

ドキュメント・スキャナは多くの場合、紙の方を動かしてスキャン（デジカメ撮影）を行う。書類をファクスで送信した経験のある世代なら、ああいったことをもう少し高速に実行している機器を想像してもらえれば近い。オフィスなどでADF付きの多機能コピー機を使用しているなら、まさにそれは一種のドキュメント・スキャナだ（ADF：自動給紙装置）。
極端に大量の伝票（紙資料）がある宅配業者などの場合は、風圧で紙を飛ばし（搬送し）、シャッターが開きっぱなしのカメラの前でフラッシュを光らせて超高速スキャンを行うようなものもあるが、一般個人の場合は卓上に置けるものが現実的だ。

市販されている一般個人向けドキュメント・スキャナ製品では、たいていOCRソフトや管理ツールなどの（パソコン用の）各種アプリケーション、オンラインサービスの利用権がセットになっているので、すぐに環境を整えられる利点がある。

ちょっと寄り道になるが、書籍用スキャナ（非接触スキャナ）というものもある。
じつは通常のドキュメント・スキャナで書籍（コミックなども含む）をスキャンする場合、その本すべてのページをバラしてからスキャンを行うことになる。これは、ドキュメント・スキャナが紙を1枚1枚搬送しながらスキャンする構造であるためだ。さらに背表紙があった部分の接着剤などは紙の搬送時に問題を起こすため、この部分をきれいに裁断しておく必要がある。
つまり一般的なドキュメントスキャナの場合、書籍の内容そのものはデジタルデータで保存されるのだが、「本」としての物理的な存在は廃棄することが前提となるわけだ。
「デジタル化したのに紙を保存する必要はないだろう？」と思う人もいるかもしれないが、こればかりは個人の思い入れもあるし、実物がなんらかの価値をもっている場合はバラすわけにはいかない。
ところが、書籍用スキャナであれば本を開いて左右両ページを撮影していくので、作業効率は良くないが、本を傷つける心配はない。また綴じ部分のゆがみや影なども自動処理してくれる。やや専門的にはなるが、こういった機器があることも知っておいて損はないだろう。

「文字」のスキャンとその加工

さて、ここから少し技術的な内容に入っていく。
そもそもドキュメント・スキャナといっても、紙の表面をデジカメで撮影しているという原理は変わらない。対象である紙を連続的に搬送しながら撮影しているという点が一般的なデジカメ撮影と異なるだけである。

スキャンする「紙」は、いろいろなものが想定される。
次の項で触れる新聞の切り抜きかもしれないし、規格が整った書類かも知れない。思い出の旅のキップ1枚かもしれないし、大切な写真の紙焼きかもしれない。
いすれにしても、そのスキャン画像をどのように使うのかによって、スキャンのやりかたや、事後処理が異なってくる。

新聞や書籍をスキャンする場合、ほとんどその「色」を気にすることはない。文字のみ、あるいは文字が主体である場合は、何より文字がきれいで読みやすいことが最優先になる。この場合、「白黒二値（しろくろ・にち）」で記録する方法がある（bi-tonal：バイトーナルともいう）。
これは、画像を細かく分割した点（ドット）のそれぞれを、黒か白のどちらかで表現するデータの持ち方の一種である。紙のFAXを思い出していただければわかりやすい。色情報がないので大量の紙資料をスキャンしても、データ容量は非常に少なくて済む利点もある。
問題は、黒と白をどういった基準で分けるのかということと、画像の細かさ（読み取り解像度）である。

黒と白の中間であるグレーを白として扱うのか、それとも黒として扱うのかを決めるのは、専門的には「スレッショルド」とか「しきい値」などというが、より「黒」と判定するように設定すると、たとえば新聞紙のスキャンなどの場合は裏写りが目立ってしまい読みづらい画像になってしまう。また表面上のちょっとしたゴミも黒い点として残ってしまう。やたら濃くて読みにくいファクスを受け取った時のような感じである。

逆に、より「白」と判定するように設定すると、たとえば明朝体のような細い字体がかすれてしまったりする。
この白黒判定ラインであるスレッショルド（しきい値）は、一般向けのドキュメント・スキャナでは自動設定が基本だが、手動調整機能を使えば、納得の出来栄えにすることが出来る。

ちなみに白黒二値と似たものに、「グレースケール」というものがある。簡単に言えばモノクロ写真である。
この場合、白（完全な白）から黒（真っ黒）までの濃さを何段階で表すかがポイントとなる。当然ながら8段階よりも16段階や64段階の方がより滑らかになる。この段階数が白か黒かの2段階しかないのが白黒二値というわけである。文字を読むということであるならば、8段階もあれば十分すぎるほどである。
なお、当然ながらグレー部分の段階数を増やせばデータ量も増えていく。といっても高解像度のカラー写真が当たり前の昨今、よほど大量の書類をスキャンするのでない限り、あまり気にする必要はないだろう。

もう一つの解像度については説明不要かもしれないが、解像度が高すぎるとスキャンに時間がかかるようになるし、生成されたデータのサイズがムダに大きくなってしまい、保存や送信などの面で難がでてくる。逆に小さすぎれば文字が潰れて判読しにくくなるし、OCR処理の際には文字として認識されなくなる。
目安としては、一般的なドキュメントは200dpi以上、小さな文字がある場合は400dpi以上というのを覚えておいて、いろいろ試してみるとよいだろう。

もっと手軽にスマホで

さて、紙をデジタルデータ化する作業をもっと手軽にする方法を紹介する。もっとも、手軽な方法なのだからこれまで見てきたような細かいことは出来なかったりする。それでもスマホひとつで、必要十分なレベルで、費用も基本的にかからないとすれば、じゅうぶん利用価値はあるだろう。
筆者は、保存しておきたい新聞記事などをスマホで撮影して保存している。そもそも切り抜いた薄っぺらい新聞紙を一般的なドキュメント・スキャナに入れると、搬送時にしわになったり詰まったり、最悪は破れてしまったりするという心配があるからだ。第一、新聞記事を切り抜くことが面倒くさい。さらに、単にスマホのカメラ機能で撮影するだけでなく、それなりのアプリを使ってきれいに仕上げる。

筆者が使っているのはMicrosoft Office Lensという無料アプリだ（もちろんほかにもいろいろあるし、カネを出せばさらに優れたものもある）。
このアプリの場合、ドキュメント（書類）だけでなく、ホワイトボード、名刺、写真といった撮影モードがあり、それぞれにあった調整が自動的に行われる。
もっともありがたいのは、ゆがみ補正だ。読むための画像を撮影する場合、台形に歪んだ画像の中の文字を読むのはちょっとつらい。しかしゆがみ補正があれば、きれいな平面写真として仕上がる。
ゆがみ補正された写真はその場で編集・加工できるが、新聞の場合は白黒二値かグレースケールのフィルターを適用するだけでグンと読みやすくなる。

新聞の記事を撮る場合、通常はどうしても折りたたんだ部分が山や谷のようになっていて、影が出来てしまったりする。しかし先ほどのフィルターを使用すれば影を軽減できるのである。
ただ折り目に近い部分の文字のゆがみは直せないので、新聞紙を逆方向に折ってみるなどして工夫するしかない。というより、「読めればいい」ということであれば特に気にすることもないだろう。スマホで2～3度撮り直すなどして、「この気軽さでこのレベル」ということに満足できれば、なんら問題はないと思う。

なお、スマホのこの手のアプリではもはや当然だが、トリミング（不要な部分を切りとる）やカラー調整、画像の回転など多様な加工もできる。なんとOCR機能もあるようなので、きちんと（活字を）撮影できれば、かなり便利に活用することが出来そうだ（筆者は外出先で手軽に気になる記事を読めればそれでいいのでそこまで活用していない）。

検索も深く考えすぎずに

ある程度スキャンドキュメントが増えてくると、検索の利便性を考えなければならない。しかし企業レベルならともかく、個人レベルでは特別な検索システムは不要だろう。JPEGファイルやPDFファイルの名前を工夫するとともに、パソコンやスマホ（厳密にはWindowsやAndroidなど）自身がもっている検索機能を活用すれば十分だと思う。

筆者の場合はファイル名冒頭に数字8桁で日付を入れ、半角アンダーバーに続いて、記事のタイトルや記述者名、新聞社名、その他都合のいい言葉を入れている。記事を探すときはAndroidやWindowsに備わっているファイル検索機能を使えば、瞬時に候補をリストアップしてくれるから、忘れていた過去の記事も参照できる。

それから、保存するときのフォルダ分けはあまりやらない方がいい。ザックリした分類か、あるいは分類せずに放り込んでおいて、検索で見つけ出すことがコンピュータの上手な使い方だ。
怒られるかもしれないが、世界的に普及しているとは言い難い管理システムや検索システムには、依存しすぎない方がいい。何年後かに困った事態に直面する場合が無いとも限らないからだ。

読んで考えなければ意味がない

今回は、いわば「いまどきの新聞の切り抜き」を解説したようなものだが、大切なのは記録した文書を読まなければ意味がないということである。スキャン作業や保存作業にこだわりすぎて、手段が目的化してしまっては本末転倒である。「読めればいい」という、ある意味いい加減な態度も大切だと思う。
なお、撮影・スキャンしたものは、著作権が存在していたり、個人や組織の秘密情報であったりする場合もあるので、そこは常識人として取り扱っていただきたい。

2 コメント

コメント日が古い順 | 新しい順

Unknown (こちウワ男): 2020-09-16 07:19:21; 便利なものがあるんですね。最近はデータもネットで探せばこと足りると、取材より、その前に検索する若い記者が増えました。いいように活用すればいいのですが、時折、コピペした、記者が処分される報道も見かけます。私は現職を離れても、相変わらず、新聞をスクラップしております。古くなると黄ばみ、ボロボロになって、崩れ落ちます。スマホで、出来るとは凄いですね。ただ、技術を取得するまで命果てるかも、です（笑）; 返信する

【考えてこそホモサピエンス】 (花馬米): 2020-09-16 07:44:51; コメントありがとうございます。
ここ二十数年で、ネット検索すれば「なんでも」わかる、といった風潮が強くなってきた気がします。しかし、「わかった気になっている」人や、じっくりと自分の頭で考える時間を持たない人が増えてきたような気もしています。

世の中の「正しいこと」はたぶん、ひとつではないでしょうし、常に揺らいでいるものなのかもしれません。だとすれば「あなたはどう考えるのか」、「なぜそう考えるのか」、といった質問に自分らしく答えていけるようでありたいですね。
そうでなければ、「私」の存在理由が揺らいでしまいそうです。

今回ご紹介した、いわば「スマホで電子スクラップ」。ぜひ遊び半分でやってみてください。勉強１割、チャレンジ９割で、「あ、そういうことか！」と目の前が明るくなることと思います。; 返信する

規約違反等の連絡

コメントを投稿

ブログ作成者から承認されるまでコメントは反映されません。

	ブログを読むだけ。毎月の訪問日数に応じてポイント進呈
	【コメント募集中】今年の「バレンタイン」どうだった？
	訪問者数に応じてdポイント最大1,000pt当たる！
	dポイントが当たる！無料『毎日くじ』

ハナウマ・ブログ

'00年代「ハワイ、ガイドブックに載らない情報」で一世を風靡した？花馬米（はなうま・べい）のブログです。