使用python抓取网站时获取最大页面数

Question

我是python的新手，必须抓取一个网站来获取大学课程的一些数据：

我能够获得所需的信息。 问题是我需要为每个条目（页面，月，年）。

每个月的页面数量不同。 有什么方法可以提取最大页数，以便我可以存储它并将其用于循环吗？

我将不胜感激任何帮助。 谢谢！

Answer 1

For循环很不错，但是您不能总是使用它们。 在这种情况下，我将反复点击“下一页”按钮中的链接，直到没有此类按钮为止。 像这样：

url = <first page>
while True:
    # extract data
    if <there is a next page button>:
        url = <href of the button>
    else:
        break

Answer 2

这将获取您的所有页面，并为每个页面生成一个BeautifulSoup对象，指向下一页的链接位于前进类别的anchor标记中：

import requests
from urlparse import urljoin


def get_pages(base, url):
    soup = BeautifulSoup(requests.get(url).content)
    yield soup
    next_page = soup.select_one("a.forward")
    for page in iter(lambda: next_page, None):
        soup = BeautifulSoup(requests.get(urljoin(base, page["href"])).content)
        yield soup
        next_page = soup.select_one("a.forward")



for soup in get_pages("https://www.xrel.to/", "https://www.xrel.to/games-release-list.html?archive=2016-01"):
    print(soup)

使用python抓取网站时获取最大页面数

问题描述

2 个解决方案

解决方案1
1 已采纳 2016-05-09 16:23:15

解决方案2
1 2016-05-09 20:17:38

使用python抓取网站时获取最大页面数

问题描述

2 个解决方案

解决方案1 1 已采纳 2016-05-09 16:23:15

解决方案2 1 2016-05-09 20:17:38

解决方案1
1 已采纳 2016-05-09 16:23:15

解决方案2
1 2016-05-09 20:17:38