如何為每個請求（或線程）添加不同的代理到scrapy

Question

SUBJ。 我們的蜘蛛跟隨鏈接並使用“解析頁面”功能解析它們，該函數返回項目。 在第一次調用parse_page之前，如何為每個請求添加不同的代理？

例如，我有250個代理池，並希望隨機選擇每個代理請求。

Answer 1

您可以為此創建一些中間件。 例如：

#Start your middleware class
class ProxyMiddleware(object):

# overwrite process request
def process_request(self, request, spider):

    # Set the location of the proxy
    request.meta['proxy'] = "http://123.456.789.012"

    # Use the following lines if your proxy requires authentication
    proxy_user_pass = "USER_AND_PASS"

    # setup basic authentication for the proxy
    encoded_user_pass = base64.encodestring(proxy_user_pass)
    request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass

我相信您可以通過修改上述代碼輕松隨機化代理URL，用戶名和密碼。 如果您需要任何其他幫助，請與我們聯系。

如何為每個請求（或線程）添加不同的代理到scrapy

問題描述

1 個解決方案

解決方案1
4 已采納 2012-12-03 23:06:26

如何為每個請求（或線程）添加不同的代理到scrapy

問題描述

1 個解決方案

解決方案1 4 已采納 2012-12-03 23:06:26

解決方案1
4 已采納 2012-12-03 23:06:26