繁体 English 中英

如何在Scrapy管道中获取请求对象

[英]How to get request object in scrapy pipeline

原文 2016-09-20 02:29:43 1 1 python/ scrapy

我知道，当调用管道时，这意味着请求已停止，通常我们应该基于提取的项目进行一些验证，持久化工作，似乎没有任何意义在管道中获取请求。

但是我发现它在某些情况下可能有用，在我的应用程序中，我使用了两个管道： FilesPipeline和MysqlStorePipeline 。

提取项目后， FilesPipeline将尝试发送请求以获取该项目的图像，并在完成后将其保存到数据库。

但是，我同时使用了一个下载中间件RandomProxy ，它将从数据库中随机获取一个代理记录，并将其设置为请求元。 但是不被授予代理权可以一直使用。

因此，可能会发生以下情况：

检索项目时，将使用代理http://proxy1 ，但不能使用它，由于重试了中间件，scrapy将再次尝试，如果可以的话，将从数据库中获取另一个代理http://proxy2使用时，将生成一个项目，然后FilesPipeline将尝试通过发送图像请求来尝试下载该项目的图像，该图像请求将填充一个代理，称其为http://proxy3 ，一旦proxy3无法使用，scrapy将重试太。 但是在所有重试过程中，都有可能出现不良代理的情况。 然后，由于没有获取必须为空的绑定图像，该项目将被丢弃。

此外，图像请求不包含可能会被服务器阻止的引用程序。

因此，我想知道是否可以通过管道访问用于提取项目的原始请求。

这可能还是其他建议？

1 个解决方案

这是两种方法：

在项目中添加一个虚拟字段，以存储所需的Spider代码中的任何内容。 然后，在项目管道中检索值（并弹出字段）。
代替使用项目管道，而使用蜘蛛中间件。 在其process_spider_output方法中，您可以访问响应和Spider输出。

如何在Scrapy蜘蛛中获取管道对象

[英]How to get the pipeline object in Scrapy spider

如何在Item Pipeline Scrapy中访问请求对象

[英]How to access request object inside Item Pipeline Scrapy

如何将参数传递给scrapy管道对象

[英]How to pass parameter to a scrapy pipeline object

如何调试易碎的管道？

[英]How to debug a scrapy pipeline?

如何在 Scrapy 上同步获取 Request 的 Response 对象？

[英]How to fetch the Response object of a Request synchronously on Scrapy?

从Scrapy中的Request对象获取HTTP请求消息

[英]Get HTTP request message from Request object in Scrapy

Scrapy：如何从 Scrapy.Request 获取返回值？

[英]Scrapy: How to get return values from Scrapy.Request?

Scrapy：如何从搜寻器获取已处理的管道项目？

[英]Scrapy: How to get processed pipeline items from crawler?

Scrapy | 如何提出请求并获取所有链接

[英]Scrapy | How to make a request and get all links

如何在 python scrapy 中获取请求标头

[英]How to get request headers in python scrapy

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何在Scrapy蜘蛛中获取管道对象如何在Item Pipeline Scrapy中访问请求对象如何将参数传递给scrapy管道对象如何调试易碎的管道？如何在 Scrapy 上同步获取 Request 的 Response 对象？从Scrapy中的Request对象获取HTTP请求消息 Scrapy：如何从 Scrapy.Request 获取返回值？ Scrapy：如何从搜寻器获取已处理的管道项目？ Scrapy | 如何提出请求并获取所有链接如何在 python scrapy 中获取请求标头

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM