簡體   English   中英

python-tesseract OCR:僅獲取數字

[英]python-tesseract OCR: get digits only

我正在使用tesseract OCR with python-tesseract。 tesseract FAQ中 ,關於數字,我們有:

使用

TessBaseAPI::SetVariable("tessedit_char_whitelist", "0123456789");

在調用Init函數之前或將其放在名為tessdata / configs / digits的文本文件中:

tessedit_char_whitelist 0123456789

然后你的命令行變成:

tesseract image.tif outputbase nobatch digits

警告:在舊的和新的配置變量合並之前,您還必須具有nobatch參數。

在python-tesseract中,存在SetVariable方法。 我試過這個,但是OCR的結果是一樣的:

api = tesseract.TessBaseAPI()
api.SetVariable("tessedit_char_whitelist", "0123456789")
api.Init('.','eng',tesseract.OEM_DEFAULT)
api.SetPageSegMode(tesseract.PSM_AUTO)

有沒有人已經有這個工作,或者我應該認為它是python-tesseract中的一個錯誤?

好的,搞定了。 根據tesseract-ocr的這個(非官方?)文檔 ,必須在Init()之后調用SetVariable(),即使官方常見問題解答中說的相反。 在Init()之后調用它按預期工作。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM