如何在Python3中使用pdf2txt打開基於Web的PDF

Question

我已經在Python3中使用pdfminer pdf2txt成功解析了本地PDF。 我使用以下代碼：

Python3 pdf2txt.py -A -M 15.0 -L 0.3 -W 0.2 -F 0.5 -V -o output.txt -t text input.pdf

我想知道是否有任何方法可以使用pdf Web鏈接而不是本地文件。 我不確定該如何聲明。 我嘗試使用引號和括號，但是有錯誤。

Answer 1

Python在標准庫中具有urllib ，要檢索URL的內容，可以使用urlretrieve ：

import urllib2
urllib.urlretrieve('http://www.example.com/myfile.pdf', 'myfile_local.pdf')

我相信在Python 3中，它在urllib.request.urlretrieve被隱藏得更深。

我不知道您使用的是什么操作系統，但您可能還想只使用命令行中的wget程序之類的方法，這樣就不必編寫任何Python代碼即可進行檢索。

Answer 2

不幸的是pdf2txt.py不支持流PDF文檔的解析。 內部需要在文件中查找，而使用流很難實現。

唯一的選擇是將PDF文檔下載到文件系統，然后在其上調用pdf2txt.py 。 有很多工具可以下載URL資源，例如curl，wget等，或者您可以使用Python編寫自己的工具。

您可以輕松地制作一個shell，批處理或Python腳本，以將PDF文件下載到一個臨時文件，運行pdf2txt.py ，然后進行清理。