[英]Tesseract can't recognize image after Clearing image incomprehensibly
我想在擦除正確的數字后獲得兩位數的圖像,以確保准確性。 示例) 原始 , 修改
圖片為PNG文件(52 * 26px),背景顏色為(192,192,192,255),每個數字的顏色均不同。
但是令人驚訝的是,在刪除正確的數字后,tesseract無法識別該數字。
結果:
original:60
left:
from PIL import Image
from pytesseract.pytesseract import *
im=Image.open('NA2WK.png')
#calculate far left xpos of color
color={}
for i in range(52):
for j in range(26):
if im.load()[i,j]!=(192,192,192,255):
if color.get(im.load()[i,j])==None:
color[im.load()[i,j]]=9999
if i<color[im.load()[i,j]]:
color[im.load()[i,j]]=i
#get color of left character
if color.values()[0]<color.values()[1]:
left=color.keys()[0]
right=color.keys()[1]
else:
left=color.keys()[1]
right=color.keys()[0]
#left processing
imleft=Image.open('test.png')
pix=imleft.load()
for i in range(52):
for j in range(26):
if pix[i,j]==(192,192,192,255) or pix[i,j]==right:
pix[i,j]=(255,255,255,255)
else:
pix[i,j]=(0,0,0,255)
print('original:'+image_to_string(im))
print('left:'+image_to_string(imleft))
Tesseract在內部執行連接組件分析。 它確實嘗試將文本塊分組在一起,並且由於頁面內缺少太多字符而可能導致問題。 有頁面分割模式,您可以要求tesseract將圖像視為單個字符。 嘗試這種方法可能會為您提供所需的結果。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.