繁体   English   中英

python scrapy如何知道访问的链接

[英]python scrapy how to know visited links

可以说我正在抓取数千页。

然后,当我在某个页面上剪贴时,我想知道此页面之前是否曾经被剪贴过。 然后,我决定是否报废。

我想知道默认情况下,scrapy是否保存所抓取的页面。

我尝试过的

我将抓取的链接保存在文件中,然后阅读以了解以前是否已抓取特定链接。 但是,我认为scrapy应该具有内置功能来做到这一点。

对?

scrapy内置了该功能,并将为您过滤这些请求,请参阅文档中的scrapy请求

dont_filter (布尔值)–指示调度程序不应过滤此请求。 当您要多次执行相同的请求时,可使用此选项来忽略重复项过滤器。 谨慎使用它,否则您将进入爬网循环。 默认为False。

因此,在创建请求时,您可以决定是否要重新抓取相同的网址。

有关更多实施信息,请参见代码中的默认RFPDupeFilter

有一个名为DUPEFILTER_CLASS的设置条目,以防您想用其他一些dedup逻辑替换默认条目

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM