[英]How can I handle mal-encoded character with Python 2?
我要提取的HTML文件包含一些HTML标头中指定的编码不支持的字符:
我发现Shift_JIS编码不支持以下功能,但实际使用了以下功能。 我的浏览器可以正确显示这些字符。
当我尝试读取此HTML文件并解码以进行处理时,出现UnicodeDecodeError。
url = 'http://matsucon.net/material/dic/kao09.html'
response = urllib2.urlopen(url)
response.read().decode('shift_jis_2004')
有什么好的方法可以处理包含错误编码字符的HTML,而不会出现错误?
尝试这个:
response.read().decode('shift_jis_2004',errors='ignore')
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.