使用 Python 和 Beautiful Soup

Question

我正在做一个 CA，我必须使用漂亮的汤来解析页面，我用代码做了

r = urlopen(url)    # download the page
res1 = str(r.read()) # put the content into a variable
soup = BeautifulSoup(res1,'html.parser')
for link in soup.find_all('a'):
    print(link.get('href'))

但后来我必须打印有多少不同的页面被抓取。

有人给我提示吗？

非常感谢

Answer 1

正如评论中提到的@cricket_007，您当前的代码“抓取”（即检索）只有一页。

如果您需要打印您在文档中找到了多少个链接，您可以这样做

print(len(soup.find_all('a')))

请注意， soup.find_all('a')是相应标签的列表，因此它的len为您提供了许多链接。

如果您真的需要抓取网站（例如，检索页面、从该页面获取所有链接、跟踪每个链接、检索它所指的页面等等），我建议使用RoboBrowser而不是“纯”BeautifulSoup。

使用 Python 和 Beautiful Soup

问题描述

1 个解决方案

解决方案1
0 2016-03-07 22:03:15

使用 Python 和 Beautiful Soup

问题描述

1 个解决方案

解决方案1 0 2016-03-07 22:03:15

解决方案1
0 2016-03-07 22:03:15