印刷された書類をWORDやEXCEL等パソコンに打ち込まなくてはならないことってありますよね。そういう時に印刷された文字をスキャナーで読み込みパソコンに文字として取り込めるソフトがあります。OCRソフトです。
OCRソフトにも色々あり認識率にも差があるようです。OCRソフトでTEXTに変換すると原稿の品質にもよりますがところどころ変換を間違えるので修正が必要です。その場合の裏技として、”置換”で間違えをまとめて修正すると効率的に修正入力できます。
原稿に汚れがあると何らかの文字に変換してしまいますので原稿はきれいな方が良い。スキャナのガラス板はきれいに拭いておくことが必要です。さらなる裏技として画像ソフトを使用し原稿の汚れをきれいにしているとそのうち超裏技を思いつきます。この超裏技を使うと表の認識率が極端に向上します。我ながら寂しいブログですので、コメントを投稿していただいた方に超裏技をお教えいたします。
オフィスでスキャナの使い方を知らなかった人にこのテクニックを教えたら何でもかんでも電子データ化してアウトプットが増えました。そうするとこちらに跳ね返ってくるので知らない同僚には教えない方が得策でしょう。私は皆に何でも教えてしまうが、他の人は自分にメリットのないことは絶対やらないようだ。OCRソフトを買おうと提案したらOCRとは何だと言う上司もいた。
フリーOCRソフトもあります。SmartOCR Liteです。http://ocr.rossa.cc/
その後、勤務先の公共パソコンにOCRソフトが入っているのに気がついた。OCRソフト”いきなり®PDF to Data 7”は優れ物でPDF形式でスキャンした表をあっという間にExcelファイルに変換した。ページ数も多かったが全ページ同じ数のシートに保存出来た。認識率はさほど良くないがソフトの価格が安いようだ。
今日、Microsoft Office 2003のツール”の中にある「Microsoft Office Document Imaging」というソフトにOCR機能があることに気づいた。複数ページ毎、Wordにまとめてテキスト出力してくれる。認識率はかなり良い。
もう一つ「Microsoft Office Document Imaging」は複数ページのイメージから1ページづつ分解できるのも便利だ。
最近(2010年6月)、スキャナのOCRソフトをリリースしたとEPSONからメールがあった。危うく見落とすところでした。使ってみると変換しない部分もあるが、割合具合が良い。EPSONのHPからダウンロードできます。
再就職後のオフィスは誰もOCRと言う言葉も知らないようだ。このテクニックは他人に教えず自分だけの特技としておこう。
※コメント投稿者のブログIDはブログ作成者のみに通知されます