簡體   English   中英

在Windows XP上運行的開源OCR庫

[英]open source OCR library that runs on windows XP

我正在尋找在Windows XP上運行的開源OCR庫。 我需要使用它來處理圖像和PDF。 通常,我想從java接口該庫。 知道是否有可用的東西嗎?

問候。

檢查Tesseract

Tesseract可能是可用的最准確的開源OCR引擎。 結合Leptonica圖像處理庫,它可以讀取多種圖像格式並將其轉換為60多種語言的文本。 它是1995年UNLV准確性測試中排名前三的引擎之一。 在1995年到2006年之間,它幾乎沒有做任何工作,但是從那時起,谷歌對其進行了廣泛的改進。 它是根據Apache License 2.0發布的。

Tesseract可在Linux, Windows(使用VC ++ Express或CygWin)和Mac OSX上運行

這是Wiki比較表

http://roncemer.com/software-development/java-ocr/

“ Java OCR是一套用於圖像處理和字符識別的純Java庫。”

我將看一下Apache Tika項目,並將其與Tesseract OCR結合起來。 Apache Tika管理各種文件類型的打開和提取內容。 它具有可插拔的設計,因此您可以連接OCR進行輸入,甚至將其輸出連接到Lucene進行搜索。 它是純Java。

這里是熱火做研究關於OCR龐大的工作,看看這個

查看Tess4J ,這是Tesseract OCR API的Java JNA包裝器。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM