将额外的参数传递给scrapy.Request()

Question

实际上我想将与特定网站相关的所有数据（文本、hrefs、图像）存储到一个文件夹中。为了做到这一点，我需要将该文件夹的路径传递给所有不同的解析函数。所以我想传递这个在scrapy.Request()作为额外 kwargs 的路径，如下所示：

yield scrapy.Request(url=url,dont_filter=True, callback=self.parse,errback = self.errback_function,kwargs={'path': '/path/to_folder'})

但它给出了错误TypeError: __init__() got an unexpected keyword argument 'kwargs'

如何将该路径传递给下一个函数？

Answer 1

对于任何可能需要它的人......

您可以使用这样的meta参数传递额外的参数......

   yield scrapy.Request(url=url,dont_filter=True, 
callback=self.parse,errback = self.errback_function,  meta={'filepath': filepath})

更新：

Request.cb_kwargs是在 1.7 版中引入的。 在此之前，建议使用 Request.meta 来传递有关回调的信息。 在 1.7 之后，Request.cb_kwargs 成为处理用户信息的首选方式，让 Request.meta 用于与中间件和扩展等组件进行通信。

因此对于版本 >= 1.7 以下将起作用：

 request = scrapy.Request('http://www.example.com/index.html', callback=self.parse_page2, cb_kwargs=dict(main_url=response.url))

你可以参考这个文档： https : //doc.scrapy.org/en/latest/topics/request-response.html#passing-additional-data-to-callback-functions

Answer 2

这是一个古老的话题，但对于任何需要它的人来说，要传递额外的参数，您必须使用cb_kwargs ，然后在 parse 方法中调用该参数。

你可以参考这部分文档。

将额外的参数传递给scrapy.Request()

问题描述

2 个解决方案

解决方案1
13 已采纳 2017-10-07 12:03:59

解决方案2
1 2021-01-04 07:00:49

将额外的参数传递给scrapy.Request()

问题描述

2 个解决方案

解决方案1 13 已采纳 2017-10-07 12:03:59

解决方案2 1 2021-01-04 07:00:49

解决方案1
13 已采纳 2017-10-07 12:03:59

解决方案2
1 2021-01-04 07:00:49