使用Python从网站中收集HTML数据

Question

我正在尝试从某些网站抓取某些HTML数据，但似乎无法抓取所需的部分。 例如，我为自己设定了从这个博客中删除追随者数量的挑战，但我似乎没有做到。

我试过使用urllib，request，beautifulsoup以及Jam API 。

这是我目前的代码：

from bs4 import BeautifulSoup
from urllib import urlopen
import json
import urllib2

html = urlopen('http://freelegalconsultancy.blogspot.co.uk/')
soup = BeautifulSoup(html, "lxml")
print soup

在这个实例中，我将如何吸引更多的追随者？

Answer 1

您无法抓住关注者，因为它是javascript加载的小部件。 您需要通过css类或id或元素来获取html的一部分。

例如：

from bs4 import BeautifulSoup
from urllib import urlopen

html = urlopen('http://freelegalconsultancy.blogspot.co.uk/')
soup = BeautifulSoup(html)

assert soup.h1.string == '\nLAW FOR ALL-M.MURALI MOHAN\n'

使用Python从网站中收集HTML数据

问题描述

1 个解决方案

解决方案1
1 已采纳 2016-10-12 11:02:46

使用Python从网站中收集HTML数据

问题描述

1 个解决方案

解决方案1 1 已采纳 2016-10-12 11:02:46

解决方案1
1 已采纳 2016-10-12 11:02:46