簡體   English   中英

在具有復雜背景的圖像中提取帶有黑色邊框的白色文本

[英]Extract a white with black border text in an image with a complex background

我需要從具有任何顏色作為背景的各種屏幕截圖中提取文本,但文本是不變的,並且總是帶有黑色邊框的白色。 這些是一些例子:

在此處輸入圖像描述

在此處輸入圖像描述

這是我現在使用的代碼:

custom_config = r"--oem 3 --psm 11 -c tessedit_char_whitelist= 'ABCDEFGHIJKLMNOPQRSTUVWXYZ1234567890 '"



def preprocess_finale(im):
   im = cv2.bilateralFilter(im,5, 55,60)
   im = cv2.cvtColor(im, cv2.COLOR_BGR2GRAY)
   _, im = cv2.threshold(im, 240, 255, 1)

   return im

img= np.array(Image.open(i))
im = preprocess_finale(img)
   
text = pytesseract.image_to_string(im, lang='ita', config=custom_config)

但結果仍然完全不准確。 如何改進我的代碼?

謝謝你們

二值化並找到寬度和高度在合適范圍內的所有白色斑點。 然后,您可以對水平對齊的邊界框進行聚類,並對每個聚類中的 blob 進行水平排序。

在此處輸入圖像描述

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM