[英]Pytesseract fails to recognize digits from image
Pytesseract 无法识别数字6
和8
。 它认
6
作为5
和5
作为5
,3
作为8
和8
作为8
,Oct
为0c:
或0::
和Men
Wed
。使用的脚本:
config= "-c tessedit_char_whitelist=01234567890.:ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz -psm 3 -oem 0"
text = pytesseract.image_to_string(image, config=config)
还尝试使用 1-12 的不同 psm 编号,但没有成功。 增加对比度会导致更多数字无法识别:
kernel = np.ones((2,2),np.uint8)
dilation = cv2.dilate(im, kernel)#,iterations = 1)
text = pytesseract.image_to_string(dilation, config=config)
原始数据:
运行脚本后:
运行新脚本后:
在将图像放入 Pytesseract 之前进行一些预处理以清理/平滑图像会有所帮助。 具体来说,关闭小孔和去除噪声的形态学操作可以增强图像。 应用锐化过滤器也可能有所帮助。 调整内核大小或类型也可能有所帮助。 我相信--psm 6
在这里是最好的,因为图像是一个统一的文本块。 这是我在简单的变形关闭后得到的
import cv2
import pytesseract
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
image = cv2.imread('1.png',0)
thresh = cv2.threshold(image, 150, 255, cv2.THRESH_BINARY_INV)[1]
kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (2,2))
close = cv2.morphologyEx(thresh, cv2.MORPH_CLOSE, kernel)
result = 255 - close
data = pytesseract.image_to_string(result, lang='eng',config='--psm 6')
print(data)
cv2.imshow('thresh', thresh)
cv2.imshow('result', result)
cv2.imshow('close', close)
cv2.waitKey()
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.