在度数符号之前获取一个字符

Question

我正在尝试将度数符号连接到一个字符串，以便我可以将其写入 Word 文档。 我试过这样做。

degreeChar = u'\N{DEGREE SIGN}'
print degreeChar.encode('UTF-8')

我从中得到的输出是Â° ，我不确定为什么Â出现。 我究竟做错了什么？ 非常沮丧！

谢谢。

Answer 1

当你这样做时：

>>> degreeChar = u'\N{DEGREE SIGN}'

degreeChar是一个单字符的 Unicode 字符串——特别是u'°' ：

>>> len(degreeChar)
1
>>> ord(degreeChar)
176

当您将其编码为 UTF-8 时，您会得到一个 2 字节的 UTF-8 字节字符串：

>>> dc = degreeChar.encode('UTF-8')
>>> len(dc)
2
>>> ord(dc[0]), ord(dc[1])
(194, 176)

作为 UTF-8，那对字节表示u'°' 。 但是，例如，Latin-1 或 cp1252，完全相同的一对字节表示u'Â°' 。 这就是不同编码的全部意义——相同的字节序列在不同的编码中意味着不同的东西。 查看详细信息：

>>> dc2 = dc.decode('latin-1')
>>> len(dc2)
2
>>> ord(dc2[0]), ord(dc2[1])
(194, 176)

那么，如果您尝试将 UTF-8 字符串print到 cp1252 终端会发生什么？ 或者将其保存为二进制文件，然后作为 cp1252 文本文件打开？ 好吧，你当然会得到Â° 。

那么，你如何解决这个问题？

好吧，只是不要尝试将 UTF-8 编码的字节打印到 cp1252 终端！ 如果 Python 已经成功猜到了您的终端的编码，只需首先将其打印为 Unicode 字符串：

>>> print u'°'
°

如果没有，你要么需要解决您的配置，以Python不猜你的终端的编码正确（容易对大多数* nix系统，与其说是在Windows ...），或手动指定，或者只是编码到正确的编码，而不是错误的一：

>>> print u'°'.encode('cp1252')
°

Answer 2

degreeChar = u'\N{DEGREE SIGN}'
print degreeChar

Unicode 应该没问题……至少在 Windows 7 上，此命令按预期工作

Answer 3

°所在的文档是用 UTF-8 编码的，但解释器认为它是不同的。

就我而言，我只是在该文档中添加了 UTF-8 BOM 标记，因此解释器会意识到内容编码。