簡體 English 中英

python scrapy如何知道訪問的鏈接

[英]python scrapy how to know visited links

原文 2014-01-17 14:19:58 4 1 python/ python-2.7/ scrapy

可以說我正在抓取數千頁。

然后，當我在某個頁面上剪貼時，我想知道此頁面之前是否曾經被剪貼過。 然后，我決定是否報廢。

我想知道默認情況下，scrapy是否保存所抓取的頁面。

我嘗試過的

我將抓取的鏈接保存在文件中，然后閱讀以了解以前是否已抓取特定鏈接。 但是，我認為scrapy應該具有內置功能來做到這一點。

對？

1 個解決方案

scrapy內置了該功能，並將為您過濾這些請求，請參閱文檔中的scrapy請求

dont_filter （布爾值）–指示調度程序不應過濾此請求。 當您要多次執行相同的請求時，可使用此選項來忽略重復項過濾器。 謹慎使用它，否則您將進入爬網循環。 默認為False。

因此，在創建請求時，您可以決定是否要重新抓取相同的網址。

有關更多實施信息，請參見代碼中的默認RFPDupeFilter

有一個名為DUPEFILTER_CLASS的設置條目，以防您想用其他一些dedup邏輯替換默認條目

Python Scrapy - 我如何重置/清除 memory 訪問的 URL 的 Z3CD13A277FBC2FEA5EF3Z=“dont_Cfilter8B668F”？

[英]Python Scrapy - How can I reset/clear memory of visited urls for scrapy “dont_filter=False”?

如何知道scrapy規則提取了哪些鏈接

[英]how to know what links were extracted by scrapy rule

如何在 scrapy python 中提取帶有數字的內部鏈接

[英]How to extract internal links with numbers in scrapy python

如何為scrapy編寫規則以添加訪問過的url

[英]How to write a rule for scrapy to add visited urls

如何在 Scrapy 中修改鏈接

[英]How to modify links in Scrapy

使用scrapy獲取Python中的鏈接？

[英]Using scrapy to get links in Python?

Python scrapy抓取鏈接而不抓取

[英]Python scrapy Crawling the links not scraping

Scrapy python：unicode鏈接錯誤

[英]Scrapy python : unicode links error

如何使用python中的Scrapy抓取網站以獲取網站中的所有鏈接？

[英]How to crawl a website to get all the links in a website using Scrapy in python?

如何通過Python Scrapy蜘蛛解析嵌入式鏈接

[英]How to parse embedded links through Python Scrapy spider

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Python Scrapy - 我如何重置/清除 memory 訪問的 URL 的 Z3CD13A277FBC2FEA5EF3Z=“dont_Cfilter8B668F”？如何知道scrapy規則提取了哪些鏈接如何在 scrapy python 中提取帶有數字的內部鏈接如何為scrapy編寫規則以添加訪問過的url 如何在 Scrapy 中修改鏈接使用scrapy獲取Python中的鏈接？ Python scrapy抓取鏈接而不抓取 Scrapy python：unicode鏈接錯誤如何使用python中的Scrapy抓取網站以獲取網站中的所有鏈接？如何通過Python Scrapy蜘蛛解析嵌入式鏈接

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM