[英]How to extract charts/tables/graphs from PDF files using Python?
[英]How to extract data from tables in a pdf using Python?
我需要使用 Python 從多個 PDF 的表格中提取數據。 我已經測試了 Camelot 和 tabula,但是它們都無法准確獲取數據。 表格有一些合並的單元格,具有多行信息等的單元格,因此這兩個庫都會混淆。 有沒有解決這個問題的好方法?
如果是這種情況,PDF 中編碼的表格的底層結構可能有問題。
您可以使用 OCR,並進行一些字符串/正則表達式操作以從每一行中提取列數據。 github.com/cseas/ocr-table似乎工作。 請參閱input.pdf和output.txt以查看它是否適用於您的情況。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.