繁体   English   中英

在通过scrapy抓取数据的同时建立引荐来源网址链吗?

[英]Build referer URL chains while crawling data through scrapy?

在抓取网址时,是否有任何刮板模块可用于构建引荐来源链。

举例来说,假设我从http://www.example.com开始抓取,然后移至http://www.new-example.com ,然后从http://www.new-example.com移至http:/ /very-new-example.com

我可以像这样创建网址链(csv或json文件):

 http://www.example.com, http://www.new-example.com
 http://www.example.com, http://www.new-example.com, http://very-new-example.com

依此类推,如果目前没有可用的模块或实现,那么我可以尝试其他哪些选择?

是的,您可以通过创建一个全局列表来跟踪推荐,例如,所有方法都可以使用该列表。

referral_url_list = []

def call_back1(self, response):
    self.referral_url_list.append(response.url)

def call_back1(self, response):
    self.referral_url_list.append(response.url)

def call_back1(self, response):
    self.referral_url_list.append(response.url)

在蜘蛛完成后可以通过蜘蛛信号进行检测。 您可以在信号功能中写入csvjson文件

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM