Python BeautifulSoup阅读网页

Question

大家好......我想阅读http://www.nydailynews.com/上的“最热门”栏目。

Chrome中的代码如下所示：

在此输入图像描述

所以我这样做：

url = "http://www.nydailynews.com/"
page = urllib2.urlopen(url)
soup = BeautifulSoup(page.read())

print soup.find_all(id = 'most-read-content')

但它什么也没有回报。

这有什么不对？ 是因为“最受欢迎的人”实际上是闪光灯还是什么？

谢谢。

Answer 1

下载实际文本时问题就开始了。 在您的代码之后， page.read()返回一个空白结果

页面的第一行源代码包含content="text/html; charset=utf-8"但要么不是这样，要么代码没有设置为读取utf-8

Answer 2

“问题是服务器返回Gzip压缩的数据。”

参考如下：

当urlopen（）一个gbk页面时，在Python中编码问题