簡體   English   中英

有沒有可能使用python從pdf導出xml數據的方法

[英]is there any possible way to export xml data from a pdf using python

我正在嘗試將pdf文件以這種格式導出到xml

  <w:p>
<w:pPr>
  <w:pStyle w:val="Heading5"/>
</w:pPr>
<w:bookmarkStart w:id="20" w:name="ssdfsdfd"/>
<w:r>
  <w:t xml:space="preserve">Ssdfsdfd</w:t>
</w:r>
<w:bookmarkEnd w:id="20"/>

這樣我就不會錯過字體和圖像。

您可以嘗試pdfminer

pypdf2xml ,一個基於pdfminer的項目。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM