簡體   English   中英

Tesseract無法清晰地清除圖像后無法識別圖像

[英]Tesseract can't recognize image after Clearing image incomprehensibly

我想在擦除正確的數字后獲得兩位數的圖像,以確保准確性。 示例) 原始修改

圖片為PNG文件(52 * 26px),背景顏色為(192,192,192,255),每個數字的顏色均不同。

但是令人驚訝的是,在刪除正確的數字后,tesseract無法識別該數字。

結果:

original:60
left:

from PIL import Image
from pytesseract.pytesseract import *

im=Image.open('NA2WK.png')

#calculate far left xpos of color
color={}
for i in range(52):
    for j in range(26):
        if im.load()[i,j]!=(192,192,192,255):
            if color.get(im.load()[i,j])==None:
                color[im.load()[i,j]]=9999
            if i<color[im.load()[i,j]]: 
                color[im.load()[i,j]]=i

#get color of left character
if color.values()[0]<color.values()[1]:
    left=color.keys()[0]
    right=color.keys()[1]
else:
    left=color.keys()[1]
    right=color.keys()[0]   

#left processing
imleft=Image.open('test.png')
pix=imleft.load()
for i in range(52):
    for j in range(26):
        if pix[i,j]==(192,192,192,255) or pix[i,j]==right:
            pix[i,j]=(255,255,255,255)
        else:
            pix[i,j]=(0,0,0,255)

print('original:'+image_to_string(im))
print('left:'+image_to_string(imleft))

Tesseract在內部執行連接組件分析。 它確實嘗試將文本塊分組在一起,並且由於頁面內缺少太多字符而可能導致問題。 有頁面分割模式,您可以要求tesseract將圖像視為單個字符。 嘗試這種方法可能會為您提供所需的結果。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM