簡體   English   中英

在Python編程中將PDF文件轉換為Excel或XML文件,無需太多編碼與PDF相同格式

[英]Convert the PDF file to Excel or XML file without much coding with same format in PDF in Python programming

所有的 Anaconda pypdf2 或 pdfrw 或 pdfminer3k 或 reportlab 都支持提取文件元數據的元數據,並且只提取 PDF to Text 文件或 Excel 文件的文本內容,但實際問題是需要將 PDF 文件轉換為 Excel帶有和更改格式的文件,如 PDF 中的(嵌入的表格、文本框信息)。 任何人都可以使用您的任何支持文件來支持此問題。

嘗試使用 Anaconda Cloud pypdf2 或 pdfrw 或 pdfminer3k 或 reportlab 中可用的所有模塊

考慮到數據可以作為 PDF 中的表格進行通信的幾乎無窮無盡的方式,這並不是那種“無需太多編碼”就可以完成的事情。

除非你想進入 PDF 規范並在那里得到你的手,否則你最好的選擇很可能是使用某種提供此功能的 API(我相信 PdfTables 有一個),或類似於Tabula 的東西(這也是具有 Python 綁定),您可以使用它來提取表,然后通過 Openpyxl 之類的工具手動生成 XLSX 文件。

請注意,由於表格的關系和結構多樣性,表格是最難從 PDF 解析的內容之一,因此您可能很難找到一個簡單的解決方案。

我建議您查看 python GROBID 庫 ( https://grobid.readthedocs.io/en/latest/ ),它被發現對於將 PDF 解析為 XML/TEI 編碼格式特別有效。 一旦以 xml 格式編碼,我強烈建議您使用此工具將表轉換為 sql 對象: https : //github.com/nikolamilosevic86/TableDisentangler

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM