[英]How to download pdf files using Python?
我正在寻找一种在 python 中下载 pdf 文件的方法,并且我看到了推荐 urllib 模块的其他问题的答案。 我尝试使用它下载 pdf 文件,但是当我尝试打开下载的文件时,会显示一条消息,提示无法打开该文件。
这是我使用的代码-
import urllib
urllib.urlretrieve("http://papers.gceguide.com/A%20Levels/Mathematics%20(9709)/9709_s11_qp_42.pdf", "9709_s11_qp_42.pdf")
我究竟做错了什么? 此外,该文件会自动保存到我的 python 文件所在的目录中。如何更改保存它的位置?
编辑 - 我再次尝试使用示例 pdf 的链接, http://unec.edu.az/application/uploads/2014/12/pdf-sample.pdf
该代码正在使用此链接,那么为什么它不适用于另一个链接呢?
尝试这个。 有用。
import requests
url='https://pdfs.semanticscholar.org/c029/baf196f33050ceea9ecbf90f054fd5654277.pdf'
r = requests.get(url, stream=True)
with open('C:/Users/MICRO HARD/myfile.pdf', 'wb') as f:
f.write(r.content)
您还可以使用 wget 通过链接下载 pdf:
import wget
wget.download(link)
这是有关如何一次性从网页中搜索和下载所有 pdf 文件的指南: https : //medium.com/the-innovation/notesdownloader-use-web-scraping-to-download-all-pdfs-with-python -511ea9f55e48
requests
或urllib
从给定的 url 下载 pdf 内容。panthomJS
这样的无头浏览器从这些网页下载文件。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.