Python 未能将错误的 unicode 编码为 ascii

Question

我有一些 Python 代码正在接收包含错误 unicode 的字符串。 当我试图忽略坏字符时，Python 仍然窒息（版本 2.6.1）。 以下是如何重现它：

s = 'ad\xc2-ven\xc2-ture'
s.encode('utf8', 'ignore')

它抛出

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 2: ordinal not in range(128)

我究竟做错了什么？

Answer 1

将字符串转换为 unicode 实例是 Python 2.x 中的str.decode() ：

 >>> s.decode("ascii", "ignore")
 u'ad-ven-ture'

Answer 2

您混淆了“unicode”和“utf-8”。 您的字符串s不是 unicode； 它是特定编码的字节串（但不是 UTF-8，更可能是 iso-8859-1 等。）从字节串到unicode是通过解码数据而不是编码来完成的。 从 unicode 到 bytestring 是编码。 也许您打算制作s一个 unicode 字符串：

>>> s = u'ad\xc2-ven\xc2-ture'
>>> s.encode('utf8', 'ignore')
'ad\xc3\x82-ven\xc3\x82-ture'

或者您可能希望将字节串视为 UTF-8 但忽略无效序列，在这种情况下，您将使用“忽略”作为错误处理程序来解码字节串：

>>> s = 'ad\xc2-ven\xc2-ture'
>>> u = s.decode('utf-8', 'ignore')
>>> u
u'adventure'
>>> u.encode('utf-8')
'adventure'

Python 未能将错误的 unicode 编码为 ascii

问题描述

2 个解决方案

解决方案1
10 已采纳 2011-05-25 13:09:40

解决方案2
8 2011-05-25 13:09:54

Python 未能将错误的 unicode 编码为 ascii

问题描述

2 个解决方案

解决方案1 10 已采纳 2011-05-25 13:09:40

解决方案2 8 2011-05-25 13:09:54

解决方案1
10 已采纳 2011-05-25 13:09:40

解决方案2
8 2011-05-25 13:09:54