我试图从使用urllib的网站获取html数据但是对于某些网站我最终在python中使用了一些未知字符

Question

嘿家伙我试图从网站使用urllib.openurl.read（）获取html数据，但对于一些网站，我得到的是数据链接* 6 \\ xbdW \\ xb6 \\ xd6 \\ xff \\ xca \\ x9d \\ x9bO | \\ xc0 \\ x96a \\ xc7 \\ xc8 \\ xf7 \\ xa7 \\ x10- \\ x8aM {\\ xf8 \\ x *并且我不知道它是什么以及为什么我会这样。 我试着谷歌搜索一些说有编码解码问题我试过，但你可以看到没有运气那么请指导我在这黑暗中。 这是我的代码--->

url = "http://mangafox.me/manga/online_the_comic/c001/1.html" # for this site and some more its not working
page = urllib.urlopen(url).read()
print page

你知道打印这段代码后发生了什么。

Answer 1

这个页面是gzip格式的，你需要在获取数据之前解压缩：

UnicodeDecodeError: 'ascii' codec can't decode byte 0x8b in position 1: ordinal not in range(128)

代码开头的0x8b表示gzip格式。

你应该看看这个问题：

twitter trend api UnicodeDecodeError：'utf8'编解码器无法解码位置1的字节0x8b：意外的代码字节

我试图从使用urllib的网站获取html数据但是对于某些网站我最终在python中使用了一些未知字符

问题描述

1 个解决方案

解决方案1
0 已采纳 2016-12-04 17:55:25

我试图从使用urllib的网站获取html数据但是对于某些网站我最终在python中使用了一些未知字符

问题描述

1 个解决方案

解决方案1 0 已采纳 2016-12-04 17:55:25

解决方案1
0 已采纳 2016-12-04 17:55:25