使用Beautiful Soup和Python刮擦多個搜索頁面的結果

Question

我正在學習使用“美麗湯”從網站上抓取一些信息。 該網站有多個我要抓取的搜索結果頁面。

這很簡單，因為每個頁面的URL都會更改：

website.com/page1
website.com/page2
.
.

但是我事先不知道會有多少頁。 所以，我不想嘗試刮website.com/page13如果沒有一個或者website.com/page13只顯示最后的結果頁面可能已經website.com/page9 。

到達最終結果頁面后，有什么方法可以停止抓取嗎？

Answer 1

通常，搜索頁面的搜索結果帶有某種索引。 如果您正在查看的頁面已說要編制索引，則當您兩次看到相同的索引時可以停止。

另外，您可能會在頁面底部碰到結果分頁，並且可以從哪個頁面上知道您是否在該列表的分頁末尾。

此外，搜索頁面通常在每個頁面上顯示一定數量的結果，因此在這種情況下，如果結果突然少於該頁面，則可以假定您所在的頁面是最后一頁。

在重復頁面的情況下進行區分的另一種方法是保留當前頁面的第一個結果，並將其與下一頁的第一個結果進行比較，如果它們相同，那么就完成了。

如果您可以在此頁面上提供更多詳細信息，或者嘗試在問題范圍內提供更多詳細信息，我可能會提供其他輸入。