在存儲的數據上重播Scrapy蜘蛛

Question

我已經開始使用Scrapy來搜索一些網站。 如果我稍后在我的模型中添加一個新字段或更改我的解析函數，我希望能夠“重播”下載的原始數據，以便再次刪除它。 看起來Scrapy能夠在一個點上將原始數據存儲在重放文件中：

但是這個功能似乎已經在當前版本的Scrapy中被刪除了。 還有另一種方法來實現這一目標嗎？

Answer 1

如果你運行crawl --record=[cache.file] [scraper] ，你就可以使用replay [scraper] 。

或者，您可以使用HttpCacheMiddleware緩存所有響應，方法是將其包含在DOWNLOADER_MIDDLEWARES ：

DOWNLOADER_MIDDLEWARES = {
    'scrapy.contrib.downloadermiddleware.httpcache.HttpCacheMiddleware': 300,
}

如果這樣做，每次運行刮刀時，它都會先檢查文件系統。

Answer 2

緩存所有http請求和響應以實現恢復爬網。