繁体   English   中英

如何使用 Python 从 pdf 中的表格中提取数据?

[英]How to extract data from tables in a pdf using Python?

我需要使用 Python 从多个 PDF 的表格中提取数据。 我已经测试了 Camelot 和 tabula,但是它们都无法准确获取数据。 表格有一些合并的单元格,具有多行信息等的单元格,因此这两个库都会混淆。 有没有解决这个问题的好方法?

如果是这种情况,PDF 中编码的表格的底层结构可能有问题。

您可以使用 OCR,并进行一些字符串/正则表达式操作以从每一行中提取列数据。 github.com/cseas/ocr-table似乎工作。 请参阅input.pdfoutput.txt以查看它是否适用于您的情况。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM