带有嵌套 Web 请求的 Gevent 池

Question

我尝试组织最多 10 个并发下载的池。 该函数应下载基本 url，然后解析此页面上的所有 url 并下载每个 url，但同时下载的 OVERALL 数量不应超过 10。

from lxml import etree 
import gevent
from gevent import monkey, pool
import requests

monkey.patch_all()
urls = [
    'http://www.google.com', 
    'http://www.yandex.ru', 
    'http://www.python.org', 
    'http://stackoverflow.com',
    # ... another 100 urls
    ]

LINKS_ON_PAGE=[]
POOL = pool.Pool(10)

def parse_urls(page):
    html = etree.HTML(page)
    if html:
        links = [link for link in html.xpath("//a/@href") if 'http' in link]
    # Download each url that appears in the main URL
    for link in links:
        data = requests.get(link)
        LINKS_ON_PAGE.append('%s: %s bytes: %r' % (link, len(data.content), data.status_code))

def get_base_urls(url):
    # Download the main URL
    data = requests.get(url)
    parse_urls(data.content)

如何组织它以并发方式进行，但要保持所有 Web 请求的通用全局池限制？

Answer 1

我认为以下内容应该可以满足您的需求。 我在我的示例中使用 BeautifulSoup 而不是您拥有的链接条带化内容。

from bs4 import BeautifulSoup
import requests
import gevent
from gevent import monkey, pool
monkey.patch_all()

jobs = []
links = []
p = pool.Pool(10)

urls = [
    'http://www.google.com', 
    # ... another 100 urls
]
    
def get_links(url):
    r = requests.get(url)
    if r.status_code == 200:
        soup = BeautifulSoup(r.text)
        links.extend(soup.find_all('a'))

for url in urls:
    jobs.append(p.spawn(get_links, url))
gevent.joinall(jobs)

Answer 2

gevent.pool 将限制并发 greenlets，而不是连接。

您应该使用会话与HTTPAdapter

connection_limit = 10
adapter = requests.adapters.HTTPAdapter(pool_connections=connection_limit, 
                                        pool_maxsize=connection_limit)
session = requests.session()
session.mount('http://', adapter)
session.get('some url')
# or do your work with gevent
from gevent.pool import Pool
# it should bigger than connection limit if the time of processing data 
# is longer than downings, 
# to give a change run processing.
pool_size = 15 
pool = Pool(pool_size)
for url in urls:
    pool.spawn(session.get, url)

Answer 3

您应该使用gevent.queue以正确的方式进行操作。

这（eventlet 示例）也将有助于您理解基本思想。

Gevent 解决方案类似于 eventlet。

记住，会在某个地方存储访问过的URL，以免出现循环，以免出现内存不足错误，需要引入一些限制。

带有嵌套 Web 请求的 Gevent 池

问题描述

3 个解决方案

解决方案1
8 2013-12-07 00:44:50

解决方案2
4 2013-05-08 05:06:54

解决方案3
0 2013-03-10 13:33:27

带有嵌套 Web 请求的 Gevent 池

问题描述

3 个解决方案

解决方案1 8 2013-12-07 00:44:50

解决方案2 4 2013-05-08 05:06:54

解决方案3 0 2013-03-10 13:33:27

解决方案1
8 2013-12-07 00:44:50

解决方案2
4 2013-05-08 05:06:54

解决方案3
0 2013-03-10 13:33:27