簡體   English   中英

使用 pytesseract python 從掃描的 PDF 中提取表格到 csv

[英]Extract table into csv from scanned PDF by using pytesseract python

我有不同類型的發票文件,我想在每個發票文件中找到表格。 我可以使用“pdf2jpg”方法將掃描的 pdf 轉換為圖像,現在我必須從每張發票中提取表格並使用 OCR pytesseract 方法寫入 csv 文件。 請幫忙。

也許這段代碼會幫助你:

import pyautogui
import pytesseract

pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'

text = pytesseract.image_to_string('c:\\screenshot\\test.png')

f = open('c:\\screenshot\\csvfile_1.csv','w')
f.write(text)
f.close()

示例圖像

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM