在通过scrapy抓取数据的同时建立引荐来源网址链吗？

Question

在抓取网址时，是否有任何刮板模块可用于构建引荐来源链。

举例来说，假设我从http://www.example.com开始抓取，然后移至http://www.new-example.com ，然后从http://www.new-example.com移至http：/ /very-new-example.com 。

我可以像这样创建网址链（csv或json文件）：

 http://www.example.com, http://www.new-example.com
 http://www.example.com, http://www.new-example.com, http://very-new-example.com

依此类推，如果目前没有可用的模块或实现，那么我可以尝试其他哪些选择？

Answer 1

是的，您可以通过创建一个全局列表来跟踪推荐，例如，所有方法都可以使用该列表。

referral_url_list = []

def call_back1(self, response):
    self.referral_url_list.append(response.url)

def call_back1(self, response):
    self.referral_url_list.append(response.url)

def call_back1(self, response):
    self.referral_url_list.append(response.url)

在蜘蛛完成后可以通过蜘蛛信号进行检测。 您可以在信号功能中写入csv或json文件

在通过scrapy抓取数据的同时建立引荐来源网址链吗？

问题描述

1 个解决方案

解决方案1
0 2016-05-02 13:32:33

在通过scrapy抓取数据的同时建立引荐来源网址链吗？

问题描述

1 个解决方案

解决方案1 0 2016-05-02 13:32:33

解决方案1
0 2016-05-02 13:32:33