[英]Getting a  character before the degree symbol
我正在尝试将度数符号连接到一个字符串,以便我可以将其写入 Word 文档。 我试过这样做。
degreeChar = u'\N{DEGREE SIGN}'
print degreeChar.encode('UTF-8')
我从中得到的输出是°
,我不确定为什么Â
出现。 我究竟做错了什么? 非常沮丧!
谢谢。
当你这样做时:
>>> degreeChar = u'\N{DEGREE SIGN}'
degreeChar
是一个单字符的 Unicode 字符串——特别是u'°'
:
>>> len(degreeChar)
1
>>> ord(degreeChar)
176
当您将其编码为 UTF-8 时,您会得到一个 2 字节的 UTF-8 字节字符串:
>>> dc = degreeChar.encode('UTF-8')
>>> len(dc)
2
>>> ord(dc[0]), ord(dc[1])
(194, 176)
作为 UTF-8,那对字节表示u'°'
。 但是,例如,Latin-1 或 cp1252,完全相同的一对字节表示u'°'
。 这就是不同编码的全部意义——相同的字节序列在不同的编码中意味着不同的东西。 查看详细信息:
>>> dc2 = dc.decode('latin-1')
>>> len(dc2)
2
>>> ord(dc2[0]), ord(dc2[1])
(194, 176)
那么,如果您尝试将 UTF-8 字符串print
到 cp1252 终端会发生什么? 或者将其保存为二进制文件,然后作为 cp1252 文本文件打开? 好吧,你当然会得到°
。
那么,你如何解决这个问题?
好吧,只是不要尝试将 UTF-8 编码的字节打印到 cp1252 终端! 如果 Python 已经成功猜到了您的终端的编码,只需首先将其打印为 Unicode 字符串:
>>> print u'°'
°
如果没有,你要么需要解决您的配置,以Python不猜你的终端的编码正确(容易对大多数* nix系统,与其说是在Windows ...),或手动指定,或者只是编码到正确的编码,而不是错误的一:
>>> print u'°'.encode('cp1252')
°
degreeChar = u'\N{DEGREE SIGN}'
print degreeChar
Unicode 应该没问题……至少在 Windows 7 上,此命令按预期工作
°
所在的文档是用 UTF-8 编码的,但解释器认为它是不同的。
就我而言,我只是在该文档中添加了 UTF-8 BOM 标记,因此解释器会意识到内容编码。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.