レトロでハードな物語

レトロなゲーム機・マイコン・中古デバイスなどをArduinoやAVRで再活用する方法を模索しています。

EasyOCRで雑誌のプログラムリストを読み取る(その4)

2023年05月01日 | 自作プログラム

それではダンプリストを読み取らせてみましょう。easyocr_reader.pywのラジオボタンは"マシン語"を選択します。

I/Oタイプ

                  ↓

レイアウトがかなり崩れています。EasyOCRがどんなふうに文字を切り出したのか見ると、

なんだか中央部分の切り出しがぐちゃぐちゃです。EasyOCRにはバウンディングボックスを統合するオプションはあるのですが、この状態は改善しようがありませんでした。

ためしにフォントの書体が異なるダンプリストを読み取ってみると、

                  ↓

レイアウトはそれほど崩れていません。以前配布したDumpFormater.exeでレイアウトを修正("OCRエンジン選択"は"Google")してみると、

2箇所ほど誤変換していますが、ちゃんと読み取れているのが分かります。切り出し方を見てみると、

きれいですね。EasyOCRはフォント形状によって(おなじ文字が連続して並ぶのも影響あるかも)認識率が大きく変わりますね。

PIOタイプ

         ↓

DumpFormater.exeで修正後

きれいに読み取れています。ただしAを4と変換してしまう誤変換が2箇所ありました。

マイコンタイプ

                  ↓

DumpFormater.exeで修正後

割ときれいに読み取れていますが、文字の欠落が1箇所と誤変換が多数ありました。誤変換のすべてがAを4と変換してしまうものでした。PIOタイプと同じ誤変換です。

アスキータイプ

          ↓

DumpFormater.exeで修正後

一見よさそうですが、結構誤変換がありました。ただし上記のような4とAよりもBとDと0の誤変換が多くありました。

残念ながらBASICリストの時と同様に、EasyOCRのマシン語ダンプリストの認識率はProgramListOCRやGoogleのOCRには一歩及ばないようです。このOCRは目的の文章のフォントを学習させて使うものなのかもしれません。

結果、マシン語ダンプリストの読み取りはEasyOCRよりもProgramListOCRをメインにGoogleのOCRを補助的に使うのが良さそうな感じです。


最新の画像もっと見る

コメントを投稿