[英]How to open web based PDF with pdf2txt in Python3
我已經在Python3中使用pdfminer pdf2txt成功解析了本地PDF。 我使用以下代碼:
Python3 pdf2txt.py -A -M 15.0 -L 0.3 -W 0.2 -F 0.5 -V -o output.txt -t text input.pdf
我想知道是否有任何方法可以使用pdf Web鏈接而不是本地文件。 我不確定該如何聲明。 我嘗試使用引號和括號,但是有錯誤。
Python在標准庫中具有urllib
,要檢索URL的內容,可以使用urlretrieve
:
import urllib2
urllib.urlretrieve('http://www.example.com/myfile.pdf', 'myfile_local.pdf')
我相信在Python 3中,它在urllib.request.urlretrieve
被隱藏得更深。
我不知道您使用的是什么操作系統,但您可能還想只使用命令行中的wget
程序之類的方法,這樣就不必編寫任何Python代碼即可進行檢索。
不幸的是pdf2txt.py
不支持流PDF文檔的解析。 內部需要在文件中查找,而使用流很難實現。
唯一的選擇是將PDF文檔下載到文件系統,然后在其上調用pdf2txt.py
。 有很多工具可以下載URL資源,例如curl,wget等,或者您可以使用Python編寫自己的工具。
您可以輕松地制作一個shell,批處理或Python腳本,以將PDF文件下載到一個臨時文件,運行pdf2txt.py
,然后進行清理。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.