簡體   English   中英

如何使用 Python 從 pdf 中的表格中提取數據?

[英]How to extract data from tables in a pdf using Python?

我需要使用 Python 從多個 PDF 的表格中提取數據。 我已經測試了 Camelot 和 tabula,但是它們都無法准確獲取數據。 表格有一些合並的單元格,具有多行信息等的單元格,因此這兩個庫都會混淆。 有沒有解決這個問題的好方法?

如果是這種情況,PDF 中編碼的表格的底層結構可能有問題。

您可以使用 OCR,並進行一些字符串/正則表達式操作以從每一行中提取列數據。 github.com/cseas/ocr-table似乎工作。 請參閱input.pdfoutput.txt以查看它是否適用於您的情況。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM