[英]How to yield a Scrapy Request to another spider with different settings?
这个问题本质上与将抓取的URL从一个蜘蛛传递到另一个蜘蛛相同,但是我想再次检查是否没有“ Scrapy-native”方法。
我正在抓取网页,而无需渲染JavaScript就能成功抓取99%的时间。 但是,有时会失败,并且某些Field
不存在。 我想用item_scraped
方法编写一个Scrapy 扩展程序 ,该方法检查是否填充了所有期望的字段,如果没有, SplashRequest
向带有custom_settings
的其他蜘蛛(包括Splash设置)产生一个SplashRequest
(参见https://blog.scrapinghub.com / 2015/03/02 / handling-javascript-in-scrapy-with-splash / )。
有没有任何不使用外部服务(例如Redis)的Scrapy方法?
启用scrapy-splash仅使SplashRequest工作,不会影响常规的scrapy.Request(如果request.meta中没有“ splash”)。
您可以包含Splash设置,但仍会产生scrapy.Request-它们将在没有Splash的情况下进行处理。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.