kwsktr's study log

kwsktr のおべんきょログ

OCRって結局どのソフト使えばいいの? わからないからやってみた

試してみようかな

買う予定もないiPadも発売されたことにより、突然OCRに興味がでてきたボクです。「透明テキストのPDFにすればウハウハだよ」と、噂をきいたこともあったのですが、いまいち読み取り精度が信用できない。
ボクがはじめて使ったOCRは、かれこれ10年近く前。すっごい便利という謳い文句に騙されて、認識させたら ”「(かぎかっこ)”を『r(アール)』とか『f(エフ)』、”」(かぎかっこ・とじ)”を『し』とか『1(数字の1)』とか読んでくれて、「手打ちの方がよっぽどマシじゃねーか!」とブチきれた記憶とともに封印してきました。

ってことで、2010年のOCRが、さて、どんなものかわからないので試してみました。

試したソフト

といっても、お金をかけてテストするほど裕福ではないので有名どころのOCRソフトの体験版を2本とフリーのOCRソフトを利用してみました。

 

フリーのOCRソフトは、協同ネットワークス の RealReader Lite 5.1 です。

本当はもっと、いろいろ試すつもりだったのですが、『e.Typist v.12.0』の体験版は、まさかの認識結果をテキスト保存できずw 体験版の意味なさすぎなので即アンインストールしてゴミ箱に突っ込みました。
ソースネクストの『本格読取 2 Deluxe』は体験版がないっぽくて終了。ってことで、たった3本のソフトで使用感を比較することにしました。

テストにつかった原稿と環境

原稿はボクが書いた記事に多少の細工をほどこして1000文字に変更したもの。通常の日本語だけでなく、半角英数字もブレンド。
この原稿を Canon PIXUS MP640 でプリント&スキャンして 各ソフトウェアで識字率を比較しようと思います。

使ったフォントは、IPA P明朝。フォントサイズは12pt。普通の本よりは文字が大きいはず。スキャン画像は「256階調グレー 400dpi」と「白黒2値 300dpi」の2種類を用意しました。

計測結果

ストップウオッチで実行時間も測ろうと思ったけれど、操作に慣れていないため操作ミスが多発したこともあり、不正確で公平感がないので止めましたw
さて、計測結果……!

ソフト名 グレー 400dpi での認識ミス 白黒2値300dpi での認識ミス その他
読取革命Ver.14 14文字 16文字 文字の認識ミスは非常に少ない。ただし、全角と半角の認識ミスが多い
読んde!!ココ Ver.13 12文字 14文字 日本語・半角英数字ともに認識ミスが一番多かった
RealReader Lite 5.1 12文字 10文字 日本語の認識ミスがめだつ。半角スペースの扱いがいまいち

※ボクの環境ではこうなりましたという結果なのであしからず

こんな感じ。1000文字中20文字以下だから、98%以上は正しく読み取れているということですねぇ。スゴイスゴイ。

それにしても、読取革命Ver.14は認識ミスが少なかったなあ。でも、半角英数字を全角文字にしてしまうのが多すぎだったのが残念。日本語向けですかね。
読んde!!ココ Ver.13 は、ところどころに認識ミスが散りばめられていました。ただ、半角全角の認識だけはバッチリ。英字が多い人にはいいのかも?
結果だけみればフリーソフトの『RealReader Lite 5.1』の認識精度が一番高くなりました。だけど、この製品はGUIが細かく複雑でして……機能がいっぱいあるのは解るのですが……恐ろしく使いにくい。

読取革命Ver.14 や 読んde!!ココ みたいに、パッとみてわかるくらいに使いやすければいいのになぁ。

縦書きもやろうと思ったけど、眠いから割愛。