簡體   English   中英

在通過scrapy抓取數據的同時建立引薦來源網址鏈嗎?

[英]Build referer URL chains while crawling data through scrapy?

在抓取網址時,是否有任何刮板模塊可用於構建引薦來源鏈。

舉例來說,假設我從http://www.example.com開始抓取,然后移至http://www.new-example.com ,然后從http://www.new-example.com移至http:/ /very-new-example.com

我可以像這樣創建網址鏈(csv或json文件):

 http://www.example.com, http://www.new-example.com
 http://www.example.com, http://www.new-example.com, http://very-new-example.com

依此類推,如果目前沒有可用的模塊或實現,那么我可以嘗試其他哪些選擇?

是的,您可以通過創建一個全局列表來跟蹤推薦,例如,所有方法都可以使用該列表。

referral_url_list = []

def call_back1(self, response):
    self.referral_url_list.append(response.url)

def call_back1(self, response):
    self.referral_url_list.append(response.url)

def call_back1(self, response):
    self.referral_url_list.append(response.url)

在蜘蛛完成后可以通過蜘蛛信號進行檢測。 您可以在信號功能中寫入csvjson文件

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM