编码和解码特定字符集

Question

打印结果没有区别，utf-8编码和解码的用途是什么？ 它是encode（'utf8'）还是encode（'utf-8'）？

u ='abc'
print(u)
u=u.encode('utf-8')
print(u)
uu = u.decode('utf-8')
print(uu)

Answer 1

str.encode将字符串（或unicode字符串）编码为一系列字节。 在Python 3中，这是一个bytearray ，在Python 2中，它又是str （令人困惑）。 对unicode字符串进行编码时，剩下的是字节， 而不是 unicode-请记住UTF-8不是unicode ，这是一种可以将unicode代码点转换为字节的编码方法。

str.decode将使用选定的编解码器解码序列化的字节流，选择适当的unicode码点并为您提供unicode字符串。

因此，您在Python 2中所做的是： 'abc' > 'abc' > u'abc' ，在Python 3中是： 'abc' > b'abc' > 'abc' 。 尝试打印repr(u)或type(u) ，以查看更改之处。

utf_8可能是最经典的，但这并不重要。

Answer 2

通常，Python会先尝试将其解码为unicode，然后才能将其编码回UTF-8。其中有一个编码规定，该编码与可应用于8位字符串的字符集无关。

例如

data = u'\u00c3'            # Unicode data
 data = data.encode('utf8')
 print data

'\xc3\x83' //the output.

请在这里和这里浏览。这会有所帮助。

编码和解码特定字符集

问题描述

2 个解决方案

解决方案1
1 已采纳 2014-10-06 03:54:11

解决方案2
0 2014-10-06 03:59:24

编码和解码特定字符集

问题描述

2 个解决方案

解决方案1 1 已采纳 2014-10-06 03:54:11

解决方案2 0 2014-10-06 03:59:24

解决方案1
1 已采纳 2014-10-06 03:54:11

解决方案2
0 2014-10-06 03:59:24