繁体   English   中英

python3 urllib.request将永远在gevent中阻止

[英]python3 urllib.request will block forever in gevent

我想编写一个蜘蛛程序来在python3中使用gevent下载网页。 这是我的代码:

import gevent
import gevent.pool
import gevent.monkey
import urllib.request

gevent.monkey.patch_all()

def download(url):
    return urllib.request.urlopen(url).read(10)

urls = ['http://www.google.com'] * 100
jobs = [gevent.spawn(download, url) for url in urls]
gevent.joinall(jobs)

但是当我运行它时,出现一个错误:

Traceback (most recent call last):
File "/usr/local/lib/python3.4/dist-packages/gevent/greenlet.py", line 340, in run
result = self._run(*self.args, **self.kwargs)
File "e.py", line 8, in download
return urllib.request.urlopen(url).read(10)
File "/usr/lib/python3.4/urllib/request.py", line 153, in urlopen
return opener.open(url, data, timeout)

......
return greenlet.switch(self)
gevent.hub.LoopExit: This operation would block forever
<Greenlet at 0x7f4b33d2fdf0: download('http://www.google.com')> failed with LoopExit
......

似乎urllib.request阻止了,所以程序无法正常工作。 怎么解决呢?

这可能是由于代理位于公司网络中时的设置所致。 个人建议是将Selenium与漂亮的汤结合使用,后者使用浏览器打开URL链接,您可以下载html内容或直接控制浏览器。 希望能帮助到你

from selenium import webdriver
from bs4 import BeautifulSoup
browser = webdriver.Ie()
url = "http://www.google.com"
browser.get(url)
html_source = browser.page_source
soup = BeautifulSoup(html_source, "lxml")
print(soup)
browser.close()

Python,gevent,urllib2.urlopen.read(),下载加速器中的问题相同

从上述帖子中重申:

要读取的参数是字节数,而不是偏移量。

也:

您正在尝试读取对来自不同greenlets的单个请求的响应。

如果您想使用多个并发连接下载同一文件,则可以在服务器支持的情况下使用Range http标头(对于具有Range标头的请求,您将获得206状态,而不是200状态)。 请参阅HTTPRangeHandler。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM