繁体   English   中英

如何使用Python 2处理恶意编码的字符?

[英]How can I handle mal-encoded character with Python 2?

我要提取的HTML文件包含一些HTML标头中指定的编码不支持的字符:

我发现Shift_JIS编码不支持以下功能,但实际使用了以下功能。 我的浏览器可以正确显示这些字符。

  • ∑ n进制求和U + 2211
  • ゚半角片假名半清音标记U + FF9F
  • 西里尔字母大写字母de U + 414

当我尝试读取此HTML文件并解码以进行处理时,出现UnicodeDecodeError。

url = 'http://matsucon.net/material/dic/kao09.html'
response = urllib2.urlopen(url)
response.read().decode('shift_jis_2004')

有什么好的方法可以处理包含错误编码字符的HTML,而不会出现错误?

尝试这个:

response.read().decode('shift_jis_2004',errors='ignore')

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM