待望のTesseract 5.0は、ニューラルネットワークを介して優れた精度を提供し、テキストの画像を実際のテキストに変換するための100以上の言語をサポートする、この主要なオープンソースの光学式文字認識(OCR)エンジンの大きなアップデートとして利用できるようになりました。
Tesseract 5.0は2020年の終わりからアルファ版として利用可能であり、Tesseractベータ版は8月にリリースされました。火曜日に、Tesseract5.0.0が正式にリリースされました。 Tesseract 5.0は、LSTMモデルのトレーニングとテキスト認識にダブルの代わりにフロートを使用する「高速フロート」を介してより高速なパフォーマンスを実現します。これにより、使用するシステムメモリを減らしながら、トレーニングとOCRのパフォーマンスを大幅に向上させることができます。
Tesseract 5.0には、Apple Siliconのネイティブサポート、ビルドシステムの機能強化、ライブラリのAPIの改善、ARMサポートの改善などもあります。高速フロート以外にも、TesseractのOCRパフォーマンスをさらに向上させるコードの改善があります。
Tesseractの開発は、2005年にオープンソースになる前に数十年前にHPで始まりました。Googleはオープンソースになった後、このOCRエンジンの開発を引き継ぎましたが、2018年には、努力への貢献をやめました。 Tesseract5.0の実現に非常に時間がかかった理由の1つです。 Tesseractの最近の活動の多くは、UBMannheimのStefanWeilによるものです。
Tesseract 5.0のダウンロードと、この大きなオープンソースOCRアップデートの詳細については、 GitHub 。