從用戶界面圖像中提取 OCR 文本

Question

我目前正在使用 Pytesseract 從 Amazon、ebay、（電子商務）等圖像中提取文本以觀察某些模式。 我不想使用網絡爬蟲，因為這是關於從此類網站上的文本中識別某些模式。 圖像示例如下所示：

然而，每個網站看起來都不一樣，所以模板匹配也無濟於事。 此外，圖像背景的顏色也不同。

代碼給了我大約 40% 的准確率。 但是如果我將圖像裁剪成更小的尺寸，它會正確地給我所有的文本。

有沒有辦法接收一張圖像，將其裁剪成多個部分，然后提取文本？ 圖像的預處理無濟於事。 我嘗試過的是使用：重新縮放、去除噪聲、去歪斜、傾斜、自適應閾值、灰度、otsu 等，但我無法弄清楚該怎么做。

try:
    from PIL import Image
except ImportError:
    import Image
import pytesseract
# import pickle


def ocr_processing(filename):
    """
    This function uses Pillow to open the file and Pytesseract to find string in image.
    """
    text = pytesseract.image_to_data(Image.open(
        filename), lang='eng', config='--psm 6')
    # text = pytesseract.image_to_string(Image.open(
    # filename), lang='eng', config ='--psm 11')
    return text

Answer 1

如果您有很多文本並且想通過 OCR 檢測它（示例圖像如上），僅作為推薦，“Keras”是一個非常好的選擇。 比 pytesseract 或僅使用 EAST 好得多。 這是評論部分提供的建議。 它能夠正確跟蹤 98.99% 的文本。

這是 Keras-ocr 文檔的鏈接： https : //keras-ocr.readthedocs.io/en/latest/

從用戶界面圖像中提取 OCR 文本

問題描述

1 個解決方案

解決方案1
1 2021-07-08 07:15:25

從用戶界面圖像中提取 OCR 文本

問題描述

1 個解決方案

解決方案1 1 2021-07-08 07:15:25

解決方案1
1 2021-07-08 07:15:25