繁体   English   中英

在scrapy中使用一个蜘蛛抓取多个域并从数据库加载域

[英]Crawl Multiple domain with one spider in scrapy and loads domain from db

我是 python word 和 Scrapy 的新手。

我的要求是从多个站点或域中抓取相同的数据 我想从银行自己的网站上从银行的所有产品中获取信用卡数据,如年费、年利率、卡名、卡图像。

由于有很多银行,每家银行都有自己的域,所以我想从不同银行的信用卡页面获取相同类型的数据。

我已经在数据库中存储了银行信用卡页面的 url,并希望抓取这些 url并获取相关数据。

由于我想从所有站点获取相同类型的数据,因此我只想为此使用单个蜘蛛

所以我的问题是:

  1. 我如何加载 url 以从数据库中抓取?
  2. 随着银行网站的变化网站的结构也发生了变化,我如何告诉scrapy根据银行网站或信用卡名称使用解析方法?

我很抱歉我无法巧妙且易于理解地阐述我的问题。

谢谢是提前。

做以下,我一直在我的大型项目中这样做

scraped_link = tldextract.extract(response.url)
if 'website' == scraped_link[1] and 'com' == scraped_link[2]:
    #do domething

if 'website2' == scraped_link[1] and 'net' == scraped_link[2]:
    #do domething

if 'website3' == scraped_link[1] and 'com' == scraped_link[2]:
    #do domething

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM