繁体 English 中英

python scrapy如何知道访问的链接

[英]python scrapy how to know visited links

原文 2014-01-17 14:19:58 9 1 python/ python-2.7/ scrapy

可以说我正在抓取数千页。

然后，当我在某个页面上剪贴时，我想知道此页面之前是否曾经被剪贴过。 然后，我决定是否报废。

我想知道默认情况下，scrapy是否保存所抓取的页面。

我尝试过的

我将抓取的链接保存在文件中，然后阅读以了解以前是否已抓取特定链接。 但是，我认为scrapy应该具有内置功能来做到这一点。

对？

1 个解决方案

scrapy内置了该功能，并将为您过滤这些请求，请参阅文档中的scrapy请求

dont_filter （布尔值）–指示调度程序不应过滤此请求。 当您要多次执行相同的请求时，可使用此选项来忽略重复项过滤器。 谨慎使用它，否则您将进入爬网循环。 默认为False。

因此，在创建请求时，您可以决定是否要重新抓取相同的网址。

有关更多实施信息，请参见代码中的默认RFPDupeFilter

有一个名为DUPEFILTER_CLASS的设置条目，以防您想用其他一些dedup逻辑替换默认条目

Python Scrapy - 我如何重置/清除 memory 访问的 URL 的 Z3CD13A277FBC2FEA5EF3Z=“dont_Cfilter8B668F”？

[英]Python Scrapy - How can I reset/clear memory of visited urls for scrapy “dont_filter=False”?

如何知道scrapy规则提取了哪些链接

[英]how to know what links were extracted by scrapy rule

如何在 scrapy python 中提取带有数字的内部链接

[英]How to extract internal links with numbers in scrapy python

如何为scrapy编写规则以添加访问过的url

[英]How to write a rule for scrapy to add visited urls

如何在 Scrapy 中修改链接

[英]How to modify links in Scrapy

使用scrapy获取Python中的链接？

[英]Using scrapy to get links in Python?

Python scrapy抓取链接而不抓取

[英]Python scrapy Crawling the links not scraping

Scrapy python：unicode链接错误

[英]Scrapy python : unicode links error

如何使用python中的Scrapy抓取网站以获取网站中的所有链接？

[英]How to crawl a website to get all the links in a website using Scrapy in python?

如何通过Python Scrapy蜘蛛解析嵌入式链接

[英]How to parse embedded links through Python Scrapy spider

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Python Scrapy - 我如何重置/清除 memory 访问的 URL 的 Z3CD13A277FBC2FEA5EF3Z=“dont_Cfilter8B668F”？如何知道scrapy规则提取了哪些链接如何在 scrapy python 中提取带有数字的内部链接如何为scrapy编写规则以添加访问过的url 如何在 Scrapy 中修改链接使用scrapy获取Python中的链接？ Python scrapy抓取链接而不抓取 Scrapy python：unicode链接错误如何使用python中的Scrapy抓取网站以获取网站中的所有链接？如何通过Python Scrapy蜘蛛解析嵌入式链接

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM