簡體 English 中英

在Python編程中將PDF文件轉換為Excel或XML文件，無需太多編碼與PDF相同格式

[英]Convert the PDF file to Excel or XML file without much coding with same format in PDF in Python programming

原文 2019-07-15 13:04:12 4 2 python

所有的 Anaconda pypdf2 或 pdfrw 或 pdfminer3k 或 reportlab 都支持提取文件元數據的元數據，並且只提取 PDF to Text 文件或 Excel 文件的文本內容，但實際問題是需要將 PDF 文件轉換為 Excel帶有和更改格式的文件，如 PDF 中的（嵌入的表格、文本框信息）。 任何人都可以使用您的任何支持文件來支持此問題。

嘗試使用 Anaconda Cloud pypdf2 或 pdfrw 或 pdfminer3k 或 reportlab 中可用的所有模塊

2 個解決方案

考慮到數據可以作為 PDF 中的表格進行通信的幾乎無窮無盡的方式，這並不是那種“無需太多編碼”就可以完成的事情。

除非你想進入 PDF 規范並在那里得到你的手，否則你最好的選擇很可能是使用某種提供此功能的 API（我相信 PdfTables 有一個），或類似於Tabula 的東西（這也是具有 Python 綁定），您可以使用它來提取表，然后通過 Openpyxl 之類的工具手動生成 XLSX 文件。

請注意，由於表格的關系和結構多樣性，表格是最難從 PDF 解析的內容之一，因此您可能很難找到一個簡單的解決方案。

我建議您查看 python GROBID 庫 ( https://grobid.readthedocs.io/en/latest/ )，它被發現對於將 PDF 解析為 XML/TEI 編碼格式特別有效。 一旦以 xml 格式編碼，我強烈建議您使用此工具將表轉換為 sql 對象： https : //github.com/nikolamilosevic86/TableDisentangler