プログラマー兼テクニカルライターである石川直太 (いしかわ なおた) のブログです。哲学からゲームまで。
naota-blog
今時OCRとは
i-mode版朝日新聞で記事全文を読んだところ、カタカナの「ト」が漢字の「卜(ぼく)」とOCRに誤認されたそうです。紙に印字した文書を業者にデジタル化させるなんて、情けないほど時代後れです。紙でお役所に納める規則のせいでしょうか。校正が重要と書かれていますが、音声読み上げか機械翻訳にかけて、辞書にない単語を探す方法もあります。ワードプロセッサーで作成した文書を、紙を介さずに公開すれば良いのですが、別件で、校正履歴が残っていたり、個人情報を画像として塗りつぶしたのに透明テキストとして残っていたりした事故もあったので、情報機器の仕組みを知っている人が操作する必要があるでしょう。震災の3日後の計画停電の直前に、第一報が紙をスキャンした画像データとして新聞社のウェブサイトに掲載されましたが、エクセルか何かのファイルをCD-Rに入れて記者に配るという発想はなかったのでしょうか。
http://www.asahi.com/articles/ASG6D75Y4G6DPTIL030.html
コメント ( 0 ) | Trackback ( 0 )