簡體   English   中英

python scrapy如何知道訪問的鏈接

[英]python scrapy how to know visited links

可以說我正在抓取數千頁。

然后,當我在某個頁面上剪貼時,我想知道此頁面之前是否曾經被剪貼過。 然后,我決定是否報廢。

我想知道默認情況下,scrapy是否保存所抓取的頁面。

我嘗試過的

我將抓取的鏈接保存在文件中,然后閱讀以了解以前是否已抓取特定鏈接。 但是,我認為scrapy應該具有內置功能來做到這一點。

對?

scrapy內置了該功能,並將為您過濾這些請求,請參閱文檔中的scrapy請求

dont_filter (布爾值)–指示調度程序不應過濾此請求。 當您要多次執行相同的請求時,可使用此選項來忽略重復項過濾器。 謹慎使用它,否則您將進入爬網循環。 默認為False。

因此,在創建請求時,您可以決定是否要重新抓取相同的網址。

有關更多實施信息,請參見代碼中的默認RFPDupeFilter

有一個名為DUPEFILTER_CLASS的設置條目,以防您想用其他一些dedup邏輯替換默認條目

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM