[英]Encoding issue when reading file in Python
我有一個文件包含
foo = "Gro\xdfbritannien"
我正在使用以下內容,但它始終顯示帶有\\ x的原始文本
import codecs
f = codecs.open('myfile', 'r', 'utf8')
for line in f:
print line
print line.encode('utf-8')
print line.decode('utf-8')
我看不到如何顯示正確的編碼文本
>>> print u'Gro\xdfbritannien'
Großbritannien
任何提示將不勝感激!
當您的文件包含該行時
foo = "Gro\xdfbritannien"
它包含一個實際的反斜杠字符,后跟x
, d
和f
。 因此,如果將該行讀取為Python字符串,則將其讀取為
'foo = "Gro\\xdfbritannien"'
(由於這些都是ASCII字符,因此是否使用utf-8
編解碼器都可以打開它)。
因此,您需要先使用string_escape
編解碼器對其進行解碼:
>>> foo.decode("string_escape")
'Gro\xdfbritannien'
然后將其解碼為正確的Unicode對象
>>> _.decode("latin1")
u'Gro\xdfbritannien'
然后可以打印
>>> print _
Großbritannien
沒有編解碼器的業務。 您應該像這樣'foo =“ Gro \\ xdfbritannien”'
>>> print u'Gro\\xdfbritannien'
Gro\xdfbritannien
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.