在scrapy中使用一个蜘蛛抓取多个域并从数据库加载域

Question

我是 python word 和 Scrapy 的新手。

我的要求是从多个站点或域中抓取相同的数据。 我想从银行自己的网站上从银行的所有产品中获取信用卡数据，如年费、年利率、卡名、卡图像。

由于有很多银行，每家银行都有自己的域，所以我想从不同银行的信用卡页面获取相同类型的数据。

我已经在数据库中存储了银行信用卡页面的 url，并希望抓取这些 url并获取相关数据。

由于我想从所有站点获取相同类型的数据，因此我只想为此使用单个蜘蛛。

所以我的问题是：

我如何加载 url 以从数据库中抓取？
随着银行网站的变化，网站的结构也发生了变化，我如何告诉scrapy根据银行网站或信用卡名称使用解析方法？

我很抱歉我无法巧妙且易于理解地阐述我的问题。

谢谢是提前。

Answer 1

做以下，我一直在我的大型项目中这样做

scraped_link = tldextract.extract(response.url)
if 'website' == scraped_link[1] and 'com' == scraped_link[2]:
    #do domething

if 'website2' == scraped_link[1] and 'net' == scraped_link[2]:
    #do domething

if 'website3' == scraped_link[1] and 'com' == scraped_link[2]:
    #do domething

在scrapy中使用一个蜘蛛抓取多个域并从数据库加载域

问题描述

1 个解决方案

解决方案1
1 2018-01-31 13:44:58

在scrapy中使用一个蜘蛛抓取多个域并从数据库加载域

问题描述

1 个解决方案

解决方案1 1 2018-01-31 13:44:58

解决方案1
1 2018-01-31 13:44:58