簡體   English   中英

如何在Python3中使用pdf2txt打開基於Web的PDF

[英]How to open web based PDF with pdf2txt in Python3

我已經在Python3中使用pdfminer pdf2txt成功解析了本地PDF。 我使用以下代碼:

Python3 pdf2txt.py -A -M 15.0 -L 0.3 -W 0.2 -F 0.5 -V -o output.txt -t text input.pdf

我想知道是否有任何方法可以使用pdf Web鏈接而不是本地文件。 我不確定該如何聲明。 我嘗試使用引號和括號,但是有錯誤。

Python在標准庫中具有urllib ,要檢索URL的內容,可以使用urlretrieve

import urllib2
urllib.urlretrieve('http://www.example.com/myfile.pdf', 'myfile_local.pdf')

我相信在Python 3中,它在urllib.request.urlretrieve被隱藏得更深。

我不知道您使用的是什么操作系統,但您可能還想只使用命令行中的wget程序之類的方法,這樣就不必編寫任何Python代碼即可進行檢索。

不幸的是pdf2txt.py不支持流PDF文檔的解析。 內部需要在文件中查找,而使用流很難實現。

唯一的選擇是將PDF文檔下載到文件系統,然后在其上調用pdf2txt.py 有很多工具可以下載URL資源,例如curl,wget等,或者您可以使用Python編寫自己的工具。

您可以輕松地制作一個shell,批處理或Python腳本,以將PDF文件下載到一個臨時文件,運行pdf2txt.py ,然后進行清理。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM