[英]Crawl Multiple domain with one spider in scrapy and loads domain from db
我是 python word 和 Scrapy 的新手。
我的要求是从多个站点或域中抓取相同的数据。 我想从银行自己的网站上从银行的所有产品中获取信用卡数据,如年费、年利率、卡名、卡图像。
由于有很多银行,每家银行都有自己的域,所以我想从不同银行的信用卡页面获取相同类型的数据。
我已经在数据库中存储了银行信用卡页面的 url,并希望抓取这些 url并获取相关数据。
由于我想从所有站点获取相同类型的数据,因此我只想为此使用单个蜘蛛。
所以我的问题是:
我很抱歉我无法巧妙且易于理解地阐述我的问题。
谢谢是提前。
做以下,我一直在我的大型项目中这样做
scraped_link = tldextract.extract(response.url)
if 'website' == scraped_link[1] and 'com' == scraped_link[2]:
#do domething
if 'website2' == scraped_link[1] and 'net' == scraped_link[2]:
#do domething
if 'website3' == scraped_link[1] and 'com' == scraped_link[2]:
#do domething
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.