Output 從 tesseract ocr 中提取的文本

Question

我正在使用 google tesseract 從圖像中提取文本。 我有一個文件夾，里面有一些圖像，我想以文本文件的形式存儲提取的文本。 結果沒問題，但 output.txt 文件中顯示了一些紅色框。

這是我從文件夾中提取文本的代碼

import cv2
import pytesseract as pt
import os

custom_config = "--oem 3 --psm 6"

path ="/home/rakshit/Documents/textextraction/croped/82092117"

textBox = []
for filename in os.listdir(path):
    head = os.path.split(filename)
    file_name = head[1].split('_',1)[0]

    imagePath = os.path.join(path, filename)
    img = cv2.imread(imagePath)
    text = pt.image_to_string(image, config = custom_config)
    textBox.append(text)

finalPath = f"/home/rakshit/Documents/textextraction/outputText/detected/{file_name}.txt"

with open(finalPath, 'w') as f:
    for t in textBox:
        f.write(t)
        f.write("\n")

output 文本是這樣的： Output 文本文件圖像

誰能告訴我 output 文本文件中出現的這些框是什么？ 提前感謝您花時間解決這個問題。

Answer 1

共享文本文件的屏幕圖像不是一個好的方式。 但我猜是分頁符。

Output 從 tesseract ocr 中提取的文本

問題描述

1 個解決方案

解決方案1
0 2022-04-16 17:09:59

Output 從 tesseract ocr 中提取的文本

問題描述

1 個解決方案

解決方案1 0 2022-04-16 17:09:59

解決方案1
0 2022-04-16 17:09:59