使用Beautiful Soup和Python刮擦多个搜索页面的结果

Question

我正在学习使用“美丽汤”从网站上抓取一些信息。 该网站有多个我要抓取的搜索结果页面。

这很简单，因为每个页面的URL都会更改：

website.com/page1
website.com/page2
.
.

但是我事先不知道会有多少页。 所以，我不想尝试刮website.com/page13如果没有一个或者website.com/page13只显示最后的结果页面可能已经website.com/page9 。

到达最终结果页面后，有什么方法可以停止抓取吗？

Answer 1

通常，搜索页面的搜索结果带有某种索引。 如果您正在查看的页面已说要编制索引，则当您两次看到相同的索引时可以停止。

另外，您可能会在页面底部碰到结果分页，并且可以从哪个页面上知道您是否在该列表的分页末尾。

此外，搜索页面通常在每个页面上显示一定数量的结果，因此在这种情况下，如果结果突然少于该页面，则可以假定您所在的页面是最后一页。

在重复页面的情况下进行区分的另一种方法是保留当前页面的第一个结果，并将其与下一页的第一个结果进行比较，如果它们相同，那么就完成了。

如果您可以在此页面上提供更多详细信息，或者尝试在问题范围内提供更多详细信息，我可能会提供其他输入。