低価格な日本語OCRソフトを買ってみたが…
「パパッと読み取りOCR」
ベクターPCショップで購入。特価1980円。
結論としては、自分には使い物になりませんでした。
ちょっとした文書の読み込み程度なら使えるかもしれません。
今まで文書の読み取りには、プリンタ付属の「読み取り革命Lite」を使ってきましたが、何分5年以上前のソフトであり、しかも最近はソフトのアップデートが全くないため、これとは違う最新のOCRソフトを試したくなりました。
最近は機械学習やAIが流行っているのだから日本語OCRの性能もアップしているだろうと期待して。
しかしネットで探してみるも中々評判の良い製品の情報が見つからず、
たまたまダウンロード販売のベクターPCショップで見つけた
「パパッと読み取りOCR」
を買ってしまいました。
冬のボーナスセール特価1980円というのにまんまと乗せられてしまいました。
このアプリケーション、GoogleのOCRエンジンを採用ということで期待をしましたが認識能力はあまり高くありません。
手書きではないプリンタ等で印字された文書での比較になりますが、認識能力は「読み取り革命Lite」に負けていると思います。
またGoogleドライブでのOCR結果とは全く異なり、Googleドライブがほぼ完璧なOCR結果を返すのに対し、「パパッと読み取りOCR」ではアルファベット混じりの低い認識結果が返ってきます。
認識能力の良さは、
「Googleドライブ」>「読み取り革命Lite」>「パパッと読み取りOCR」
となるでしょうか。
認識の処理も時間がかかり1回3~5分間も待たなければなりません。
「読み取り革命Lite」でせいぜい5~10秒程度ですので、かなり重たい処理と言えるでしょう。
PCのCPUはRyzen5 2600でまだ遅い部類には入らないと思いますが、他のもっと遅いLowスペックPCでは何分かかるんでしょうか?
また連続でファイルを読み込む機能がなく、読み込むページが多いときは作業にかなり苦痛が伴うかと思います。
さらにPC起動のたびに自動起動するのがデフォルトで、これを変更する機能もないというヘンテコ仕様となっております。
「パパッと読み取りOCR」のインストールフォルダを見てみると「TesseractOCR400」というフォルダがあり、TesseractというGoogleが中心となって作ったオープンソースの光学文字認識のエンジンが使われているのが分かります。
だからGoogleのOCRエンジンを採用と名乗っているのでしょう。
しかし「Googleドライブ」とは結果が全く異なります。
これはソフトへ入力される日本語学習データが異なるためであり、「Googleドライブ」ではより高精度な学習データが使われているからなのでしょう。
また「TesseractOCR400」というフォルダ名からTesseractのバージョン4.0を使用しているのだと思われます。バージョン4.0からはLSTMというニューラルネットワーク技術が使われているようです。LSTMは時系列データを入力とする機械学習に威力を発揮しますが、かなりの計算能力を使う重い処理となります。
「パパッと読み取りOCR」の認識処理に時間がかかるのもここに理由があるのかもしれません。
ベクターPCショップで購入。特価1980円。
結論としては、自分には使い物になりませんでした。
ちょっとした文書の読み込み程度なら使えるかもしれません。
今まで文書の読み取りには、プリンタ付属の「読み取り革命Lite」を使ってきましたが、何分5年以上前のソフトであり、しかも最近はソフトのアップデートが全くないため、これとは違う最新のOCRソフトを試したくなりました。
最近は機械学習やAIが流行っているのだから日本語OCRの性能もアップしているだろうと期待して。
しかしネットで探してみるも中々評判の良い製品の情報が見つからず、
たまたまダウンロード販売のベクターPCショップで見つけた
「パパッと読み取りOCR」
を買ってしまいました。
冬のボーナスセール特価1980円というのにまんまと乗せられてしまいました。
このアプリケーション、GoogleのOCRエンジンを採用ということで期待をしましたが認識能力はあまり高くありません。
手書きではないプリンタ等で印字された文書での比較になりますが、認識能力は「読み取り革命Lite」に負けていると思います。
またGoogleドライブでのOCR結果とは全く異なり、Googleドライブがほぼ完璧なOCR結果を返すのに対し、「パパッと読み取りOCR」ではアルファベット混じりの低い認識結果が返ってきます。
認識能力の良さは、
「Googleドライブ」>「読み取り革命Lite」>「パパッと読み取りOCR」
となるでしょうか。
認識の処理も時間がかかり1回3~5分間も待たなければなりません。
「読み取り革命Lite」でせいぜい5~10秒程度ですので、かなり重たい処理と言えるでしょう。
PCのCPUはRyzen5 2600でまだ遅い部類には入らないと思いますが、他のもっと遅いLowスペックPCでは何分かかるんでしょうか?
また連続でファイルを読み込む機能がなく、読み込むページが多いときは作業にかなり苦痛が伴うかと思います。
さらにPC起動のたびに自動起動するのがデフォルトで、これを変更する機能もないというヘンテコ仕様となっております。
「パパッと読み取りOCR」のインストールフォルダを見てみると「TesseractOCR400」というフォルダがあり、TesseractというGoogleが中心となって作ったオープンソースの光学文字認識のエンジンが使われているのが分かります。
だからGoogleのOCRエンジンを採用と名乗っているのでしょう。
しかし「Googleドライブ」とは結果が全く異なります。
これはソフトへ入力される日本語学習データが異なるためであり、「Googleドライブ」ではより高精度な学習データが使われているからなのでしょう。
また「TesseractOCR400」というフォルダ名からTesseractのバージョン4.0を使用しているのだと思われます。バージョン4.0からはLSTMというニューラルネットワーク技術が使われているようです。LSTMは時系列データを入力とする機械学習に威力を発揮しますが、かなりの計算能力を使う重い処理となります。
「パパッと読み取りOCR」の認識処理に時間がかかるのもここに理由があるのかもしれません。
- 関連記事