簡體   English   中英

Pytesseract 無法識別“3”

[英]Pytesseract fails to recognize '3'

from PIL import Image
import pytesseract, time, PADBS
pytesseract.pytesseract.tesseract_cmd = r"C:/tesseract/Tesseract-OCR/tesseract.exe"

image = Image.open('3.png')
print(pytesseract.image_to_string(image))

帶有“3”的圖像帶有“10”的圖像

當嘗試讀取“3.png”時,它沒有 output 結束。 但是當嘗試讀取“10.png”時,它會成功讀取它。 我試圖在不同的配置上運行它; --oem 3 -psm 13。我嘗試了 --oem 1 到 3。但沒有任何效果。 它無法識別此號碼的可能原因是什么? 我可以在代碼中進行哪些更改以使其正常工作?

我想你錯過了頁面分割模式6

6 假設一個統一的文本塊。 資源

對於 4.1.1 版本,結果將為 3。

代碼:

import cv2
import pytesseract

# Load the image
img = cv2.imread("3.png")

# Convert to the gray-scale
gry = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

# OCR
txt = pytesseract.image_to_string(gry, config="--psm 6")

# Print
print(pytesseract.get_tesseract_version())
print(txt)

# Display
cv2.imshow("", gry)
cv2.waitKey(0)

結果

4.1.1
3

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM