[英]Encoding issue when reading file in Python
我有一个文件包含
foo = "Gro\xdfbritannien"
我正在使用以下内容,但它始终显示带有\\ x的原始文本
import codecs
f = codecs.open('myfile', 'r', 'utf8')
for line in f:
print line
print line.encode('utf-8')
print line.decode('utf-8')
我看不到如何显示正确的编码文本
>>> print u'Gro\xdfbritannien'
Großbritannien
任何提示将不胜感激!
当您的文件包含该行时
foo = "Gro\xdfbritannien"
它包含一个实际的反斜杠字符,后跟x
, d
和f
。 因此,如果将该行读取为Python字符串,则将其读取为
'foo = "Gro\\xdfbritannien"'
(由于这些都是ASCII字符,因此是否使用utf-8
编解码器都可以打开它)。
因此,您需要先使用string_escape
编解码器对其进行解码:
>>> foo.decode("string_escape")
'Gro\xdfbritannien'
然后将其解码为正确的Unicode对象
>>> _.decode("latin1")
u'Gro\xdfbritannien'
然后可以打印
>>> print _
Großbritannien
没有编解码器的业务。 您应该像这样'foo =“ Gro \\ xdfbritannien”'
>>> print u'Gro\\xdfbritannien'
Gro\xdfbritannien
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.