主要なオープンソースOCRツールのリスト

{{brizy_dc_image_alt entityId=

OCRツールは、書かれたテキストや印刷された文書をスキャン、識別、デジタル化し、

  1. 編集、確認、検索をより簡単に。
  2. 自動化によるデータ入力の効率化。
  3. コスト削減。
  4. 処理速度向上による時間短縮。
  5. ストレージ管理の維持。
  6. 災害復旧の確保。
  7. データ保護。
  8. 迅速なデータアクセス。
  9. リソースの有効活用。

OCRシステムは、紙媒体の文書から機械可読なテキストを生成するために使用されます。さらに、人工知能やニューラルネットワークシステムの活用により、手書き文字の読み取り精度と文字認識能力が大幅に向上しました。

OCRの派生技術には、インテリジェント単語認識(IWR)や光学式マーク認識(OMR)などがあります。

どのような種類の企業がオープンソースのOCRツールを選択するのでしょうか?

請求書や法定請求書、あるいは簡単に言えばあらゆる形式のデータ入力を扱うビジネスでは、光学式文字認識(OCR)技術サービスを活用する必要があります。

また、CAPTCHAによるボット対策システムの限界をテストするためにも使用されています。モバイルOCRアプリも、今日では様々な用途で広く利用されています。

光学式文字認識(OCR)が役立つ一般的な用途としては、以下のようなものがあります。

  • 空港
  • 銀行
  • 電子書籍
  • 交通システム
  • 広告
  • サプライチェーンシステム

現在利用可能な最高のオープンソースOCRツールとソフトウェアは以下のとおりです。

Tesseract

Tesseractは、最も高く評価されているオープンソースのOCRエンジンであり、当初はヒューレット・パッカード社によって開発されました。Apacheライセンスの下で提供されるフリーソフトウェアであり、2006年以降はGoogleがスポンサーとなっています。

Tesseract OCRエンジンは、現在利用可能なオープンソースシステムの中で最も高精度なものの1つとされています。最新の安定版であるバージョン4.1.1では、LSTM(長短期記憶)ネットワークをベースとしており、最大116言語に対応しています。

TesseractはCUI(コマンドラインインターフェース)から実行されるため、独自のGUI(グラフィカルユーザーインターフェース)は備えておらず、別途GUIを用意する必要があります。高度な画像前処理パイプラインを備え、ニューラルネットワークを通じて新しい情報を学習することができます。

GOCR

GNU一般公衆利用許諾契約書(GPL)に基づいて開発されたGOCRは、無料のオープンソース文字認識ソフトウェアです。

GOCRまたはJOCR – 元の略称はGOCRです。

これはGNU光学文字認識(GNU Optical Character Recognition)の略称です。しかし、当時すでにこの名称は使用されていたため、開発者であるヨルグ・シュレンブルク(Jörg Schulenburg)の名前にちなんでJOCR(Jörg’s Optical Character Recognition)という名称が採用されました。

GOCRは、高さ20~60ピクセルの単列サンセリフフォントに対応し、バーコードの読み取りも可能だとされています。

また、他のプロジェクトのコマンドラインアプリケーションとしても利用できます。Linux、Windows、OS/2の各オペレーティングシステムに対応しています。

CuneiForm

無料かつオープンソースのシステムであるCuneiFormは、「Cognitive OpenOCR」という名称でも知られています。内蔵データベースと出力機能を備え、23種類の言語に対応しています。また、テキスト形式のスキャン、文字認識、ドキュメントレイアウト分析も行います。

Cognitive Technologies社によって開発されたOpenOCRは、フリーウェア/BSDライセンスで提供されています。クロスプラットフォームに対応していますが、Linux版にはグラフィカルインターフェースコンポーネントがありません。

Puma.NETはCuneiFormのラッパーライブラリであり、.NET Framework 2.0以降のアプリケーションで文字認識処理をよりスムーズに実行できるようにします。認識精度を向上させるため、処理中に辞書チェックを行います。

クラーケン

クラーケンは、Ocropusの他の機能を損なうことなく、Ocropusの問題点を解決するために開発されました。

このシステムはCLSTMニューラルネットワークライブラリに基づいており、過去の処理から新たなデータ学習を積み重ねていきます。動作環境によっては、実行にいくつかの外部ライブラリが必要となります。

この保存された情報は、今後発生するデータ検証の問題をより正確に推測するのに役立ちます。その作業プロセスは、新しいモデルのトレーニングにも活用されます。

A9T9

MicrosoftのA9T9は、Windows向けのシンプルで無料のオープンソース光学文字認識(OCR)ソフトウェアです。Windowsストアから入手できる、非常に使いやすくインストールしやすいアプリケーションシステムを備えています。

その他の機能としては、アドウェアやスパイウェアが一切含まれていない点が挙げられます。また、開発や改良を容易にするためのカスタマイズ可能なソースコードも提供されています。

上記以外にも、OCRopus、Calamari、Ocradといった選択肢があります。