Scrapy Heroku 上的爬虫返回 503 Service Unavailable

Question

我有一个 scrapy 爬虫，它从网站上抓取数据并将抓取的数据上传到远程 MongoDB 服务器。 我想把它托管在 heroku 上自动抓取很长时间。 我正在使用 scrapy-user-agents 在不同的用户代理之间轮换。 当我在我的电脑上本地使用scrapy crawl <spider>时，spider 运行正常并将数据返回到 MongoDB 数据库。

但是，当我在 heroku 上部署项目时，我在 heroku 日志中得到以下几行：

2020-12-22T12:50:21.132731+00:00 app[web.1]: 2020-12-22 12:50:21 [scrapy.downloadermiddlewares.retry] 调试：重试 <GET https://indiankanoon.org/ browse/> (failed 1 times): 503 服务不可用

2020-12-22T12:50:21.134186+00:00 app[web.1]: 2020-12-22 12:50:21 [scrapy_user_agents.middlewares] DEBUG: Assigned User-Agent Mozilla/5.0 (Windows NT 6.1; WOW64 ) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36

（它同样失败了 9 次，直到：）

2020-12-22T12:50:23.594655+00:00 app[web.1]: 2020-12-22 12:50:23 [scrapy.downloadermiddlewares.retry] 错误：放弃重试 <GET https://indiankanoon. org/browse/> （失败 9 次）：503 服务不可用

2020-12-22T12:50:23.599310+00:00 app[web.1]: 2020-12-22 12:50:23 [scrapy.core.engine] DEBUG: Crawled (503) <GET https://indiankanoon .org/browse/> （推荐人：无）

2020-12-22T12:50:23.701386+00:00 app[web.1]: 2020-12-22 12:50:23 [scrapy.spidermiddlewares.httperror] 信息：忽略响应 <503 https://indiankanoon.org /browse/> : HTTP 状态码未处理或不允许

2020-12-22T12:50:23.714834+00:00 app[web.1]: 2020-12-22 12:50:23 [scrapy.core.engine] 信息：关闭蜘蛛（完成）

总之，我的本地地址 IP 能够抓取数据，而当 Heroku 尝试时，它不能。 更改 settings.py 文件中的某些内容可以纠正它吗？

我的 settings.py 文件：

    BOT_NAME = 'indKanoon'
    
    SPIDER_MODULES = ['indKanoon.spiders']
    NEWSPIDER_MODULE = 'indKanoon.spiders'
    MONGO_URI = ''
    MONGO_DATABASE = 'casecounts'    
    ROBOTSTXT_OBEY = False
    CONCURRENT_REQUESTS = 32
    DOWNLOAD_DELAY = 3
    COOKIES_ENABLED = False
    DOWNLOADER_MIDDLEWARES = {
        'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
        'scrapy_user_agents.middlewares.RandomUserAgentMiddleware': 400,
    }
    ITEM_PIPELINES = {
   'indKanoon.pipelines.IndkanoonPipeline': 300,
}
    RETRY_ENABLED = True
    RETRY_TIMES = 8
    RETRY_HTTP_CODES = [500, 502, 503, 504, 522, 524, 408]

Answer 1

这可能是由于 DDoS 保护或您试图从中抓取的服务器将 IP 列入黑名单。

要克服这种情况，您可以使用代理。

我会推荐一个中间件，例如 scrapy-proxies。 使用它，您可以轮换、过滤不良代理或使用单个代理来处理您的请求。 此外，这将为您省去每次设置代理的麻烦。

这直接来自开发者 GitHub 自述文件（ Github 链接）。

安装 scrapy-rotating-proxy 库

pip install scrapy_proxies

在您的 settings.py 中添加以下设置

# Retry many times since proxies often fail
RETRY_TIMES = 10
# Retry on most error codes since proxies fail for different reasons
RETRY_HTTP_CODES = [500, 503, 504, 400, 403, 404, 408]

DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.retry.RetryMiddleware': 90,
    'scrapy_proxies.RandomProxy': 100,
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110,
}

# Proxy list containing entries like
# http://host1:port
# http://username:password@host2:port
# http://host3:port
# ...
PROXY_LIST = '/path/to/proxy/list.txt'

# Proxy mode
# 0 = Every requests have different proxy
# 1 = Take only one proxy from the list and assign it to every requests
# 2 = Put a custom proxy to use in the settings
PROXY_MODE = 0

# If proxy mode is 2 uncomment this sentence :
#CUSTOM_PROXY = "http://host1:port"

在这里您可以更改重试时间，设置单个或轮换代理

然后将您的代理添加到这样的 list.txt 文件中

http://host1:port
http://username:password@host2:port
http://host3:port

使用此功能，您的所有请求都将通过代理发送，该代理针对每个请求随机轮换，因此不会影响并发性。

其他类似的中间件也可用，例如

刮擦旋转代理

scrapy代理工具

Scrapy Heroku 上的爬虫返回 503 Service Unavailable

问题描述

1 个解决方案

解决方案1
2 已采纳 2020-12-27 14:09:26

Scrapy Heroku 上的爬虫返回 503 Service Unavailable

问题描述

1 个解决方案

解决方案1 2 已采纳 2020-12-27 14:09:26

解决方案1
2 已采纳 2020-12-27 14:09:26