繁体 English 中英

如何在Scrapy中“暂停”蜘蛛？

[英]How to 'pause' a spider in Scrapy?

原文 2017-05-11 15:59:19 4 1 python/ scrapy

我正在使用Tor（通过Privoxy）进行抓取项目，并想编写一个要求新身份的Scrapy扩展名（请参阅https://doc.scrapy.org/en/latest/topics/extensions.html ）（请参阅https://stem.torproject.org/faq.html#how-do-i-request-a-new-identity-from-tor ），只要刮掉一定数量的物品即可。

但是，更改身份需要花费一些时间（几秒钟），在此期间我希望不会刮nothing任何东西。 因此，我想使扩展名“暂停”蜘蛛，直到IP更改完成。

这可能吗？ （我已经阅读了一些有关使用Cntrl + C并指定JOBDIR解决方案，但这似乎有些过激，因为我只想暂停Spider，而不是停止整个引擎）。

1 个解决方案

搜寻器引擎具有pause和unpause方法，因此您可以尝试执行以下操作：

class SomeExtension(object):

   @classmethod
   def from_crawler(cls, crawler)
       o = cls(...)
       o.crawler = crawler
       return o

   def change_tor(self):
       self.crawler.engine.pause()
       # some python code implements changing logic
       self.crawler.engine.unpause()

如何在 Scrapy 中暂停蜘蛛

[英]How to pause spider in Scrapy

阻止时如何在Scrapy中暂停蜘蛛

[英]How to pause spider in Scrapy when blocked

在 Scrapy 蜘蛛中添加暂停

[英]Adding pause in Scrapy spider

怎么重启Scrapy蜘蛛

[英]How restart Scrapy spider

scrapy如何将蜘蛛返回给另一只蜘蛛的价值

[英]scrapy how spider returns value to another spider

如何将每个Scrapy蜘蛛物品与另一个Scrapy蜘蛛物品进行比较？

[英]How to compare each Scrapy spider item with another Scrapy spider items?

如何将变量传递给 Scrapy Spider

[英]How to pass a variable to Scrapy Spider

Scrapy - 如何检查蜘蛛是否正在运行

[英]Scrapy - how to check if spider is running

如何将第一个 scrapy 蜘蛛的已爬取 output 用于下一个 scrapy 蜘蛛

[英]How to use crawled output of first scrapy spider for next scrapy spider

scrapy：蜘蛛中的一个小“蜘蛛”？

[英]scrapy: A tiny “spider” in a spider?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何在 Scrapy 中暂停蜘蛛阻止时如何在Scrapy中暂停蜘蛛在 Scrapy 蜘蛛中添加暂停怎么重启Scrapy蜘蛛 scrapy如何将蜘蛛返回给另一只蜘蛛的价值如何将每个Scrapy蜘蛛物品与另一个Scrapy蜘蛛物品进行比较？如何将变量传递给 Scrapy Spider Scrapy - 如何检查蜘蛛是否正在运行如何将第一个 scrapy 蜘蛛的已爬取 output 用于下一个 scrapy 蜘蛛 scrapy：蜘蛛中的一个小“蜘蛛”？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM