[英]Python Scrapy - How can I reset/clear memory of visited urls for scrapy “dont_filter=False”?
[英]python scrapy how to know visited links
可以说我正在抓取数千页。
然后,当我在某个页面上剪贴时,我想知道此页面之前是否曾经被剪贴过。 然后,我决定是否报废。
我想知道默认情况下,scrapy是否保存所抓取的页面。
我将抓取的链接保存在文件中,然后阅读以了解以前是否已抓取特定链接。 但是,我认为scrapy应该具有内置功能来做到这一点。
对?
scrapy内置了该功能,并将为您过滤这些请求,请参阅文档中的scrapy请求
dont_filter (布尔值)–指示调度程序不应过滤此请求。 当您要多次执行相同的请求时,可使用此选项来忽略重复项过滤器。 谨慎使用它,否则您将进入爬网循环。 默认为False。
因此,在创建请求时,您可以决定是否要重新抓取相同的网址。
有关更多实施信息,请参见代码中的默认RFPDupeFilter
有一个名为DUPEFILTER_CLASS的设置条目,以防您想用其他一些dedup逻辑替换默认条目
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.