繁体 English 中英

递归使用 Scrapy 从网站上抓取网页

[英]Recursive use of Scrapy to scrape webpages from a website

原文 2011-02-02 16:08:27 1 2 python/ web-scraping/ scrapy

我最近开始使用 Scrapy。 我试图从一个大列表中收集一些信息，该列表分为几页（大约 50 页）。 我可以轻松地从第一页（包括start_urls列表中的第一页）中提取我想要的内容。 但是，我不想将这 50 个页面的所有链接添加到此列表中。 我需要一种更动态的方式。 有谁知道我如何迭代抓取网页？ 有没有人有这方面的例子？

谢谢！

2 个解决方案

使用 urllib2 下载页面。 然后使用 re（正则表达式）或 BeautifulSoup（一个 HTML 解析器）找到指向您需要的下一页的链接。 用 urllib2 下载它。 冲洗并重复。

Scapy 很棒，但你不需要它来做你想做的事

您为什么不想将所有链接添加到 50 个页面？ 页面的 URL 是连续的，如www.site.com/page=1 ， www.site.com/page=2还是它们都不同？ 你能告诉我你现在拥有的代码吗？

scrapy递归scrape网站

[英]scrapy recursive scrape website

使用 Scrapy 从多个网页中抓取数据

[英]Scrape data from multiple webpages using Scrapy

Scrapy：如何抓取从下拉列表中选择的多个网页

[英]Scrapy: How to scrape through multiple webpages selected from dropdown

Scrapy 无法从网站上抓取 email 字段

[英]Scrapy is not able to scrape the email field from website

从网页上抓取抓取

[英]Scrapy scraping from webpages

Scrapy-抓取并抓取网站

[英]Scrapy - Crawl and Scrape a website

Scrapy-使用网站的搜索引擎来抓取结果

[英]Scrapy - use website's search engine to scrape results

想要使用Scrapy抓取网站，但不确定是否有办法解决JavaScript问题

[英]Want to use Scrapy to scrape a website but not sure if there is a way around javascript

无法从网页中抓取容器

[英]Unable to scrape containers from webpages

Python Scrapy - 如何同时从 2 个不同的网站进行抓取？

[英]Python Scrapy - How to scrape from 2 different website at the same time?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 scrapy递归scrape网站使用 Scrapy 从多个网页中抓取数据 Scrapy：如何抓取从下拉列表中选择的多个网页 Scrapy 无法从网站上抓取 email 字段从网页上抓取抓取 Scrapy-抓取并抓取网站 Scrapy-使用网站的搜索引擎来抓取结果想要使用Scrapy抓取网站，但不确定是否有办法解决JavaScript问题无法从网页中抓取容器 Python Scrapy - 如何同时从 2 个不同的网站进行抓取？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM