繁体 English 中英

如何使用 Python 从 pdf 中的表格中提取数据？

[英]How to extract data from tables in a pdf using Python?

原文 2020-09-17 02:38:56 4 1 python/ pdf/ tabula

我需要使用 Python 从多个 PDF 的表格中提取数据。 我已经测试了 Camelot 和 tabula，但是它们都无法准确获取数据。 表格有一些合并的单元格，具有多行信息等的单元格，因此这两个库都会混淆。 有没有解决这个问题的好方法？

1 个解决方案

如果是这种情况，PDF 中编码的表格的底层结构可能有问题。

您可以使用 OCR，并进行一些字符串/正则表达式操作以从每一行中提取列数据。 github.com/cseas/ocr-table似乎工作。 请参阅input.pdf和output.txt以查看它是否适用于您的情况。

如何使用 Python 从 PDF 文件中提取图表/表格/图形？

[英]How to extract charts/tables/graphs from PDF files using Python?

如何使用 camelot 从 pdf 中提取表？

[英]how to extract tables from pdf using camelot?

如何使用python从pdf中提取单行表数据？

[英]How to extract a single row table data from a pdf using python?

如何使用PDFrw在Python中从PDF中提取数据

[英]How To Extract Data From PDF In Python Using PDFrw

如何使用python将给定的PDF提取到文本和表格并将数据存储在.csv文件中？

[英]How to extract given PDF to text and tables using python and store the data in .csv file?

我如何使用 python 从 PDF 中提取文本、表格和图像

[英]How do i extract text, tables and images from PDF using python

在python中从PDF中提取所有表格

[英]Extract all tables from PDF in python

使用 PDFminer 从发票 PDF 中提取特定数据值：Python

[英]Extract specific Data values from Invoices PDF using PDFminer : Python

如何使用PDFMiner从pdf提取表？

[英]How to extract tables from a pdf with PDFMiner?

如何使用Python从手写的扫描PDF中提取数据？

[英]How can I extract data from a handwritten, scanned PDF using Python?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何使用 Python 从 PDF 文件中提取图表/表格/图形？如何使用 camelot 从 pdf 中提取表？如何使用python从pdf中提取单行表数据？如何使用PDFrw在Python中从PDF中提取数据如何使用python将给定的PDF提取到文本和表格并将数据存储在.csv文件中？我如何使用 python 从 PDF 中提取文本、表格和图像在python中从PDF中提取所有表格使用 PDFminer 从发票 PDF 中提取特定数据值：Python 如何使用PDFMiner从pdf提取表？如何使用Python从手写的扫描PDF中提取数据？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM