繁体   English   中英

递归使用 Scrapy 从网站上抓取网页

[英]Recursive use of Scrapy to scrape webpages from a website

我最近开始使用 Scrapy。 我试图从一个大列表中收集一些信息,该列表分为几页(大约 50 页)。 我可以轻松地从第一页(包括start_urls列表中的第一页)中提取我想要的内容。 但是,我不想将这 50 个页面的所有链接添加到此列表中。 我需要一种更动态的方式。 有谁知道我如何迭代抓取网页? 有没有人有这方面的例子?

谢谢!

使用 urllib2 下载页面。 然后使用 re(正则表达式)或 BeautifulSoup(一个 HTML 解析器)找到指向您需要的下一页的链接。 用 urllib2 下载它。 冲洗并重复。

Scapy 很棒,但你不需要它来做你想做的事

您为什么不想将所有链接添加到 50 个页面? 页面的 URL 是连续的,如www.site.com/page=1www.site.com/page=2还是它们都不同? 你能告诉我你现在拥有的代码吗?

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM