在Python中讀取文件時的編碼問題

Question

我有一個文件包含

    foo = "Gro\xdfbritannien"

我正在使用以下內容，但它始終顯示帶有\\ x的原始文本

    import codecs
    f = codecs.open('myfile', 'r', 'utf8')
    for line in f:
      print line
      print line.encode('utf-8')
      print line.decode('utf-8')

我看不到如何顯示正確的編碼文本

    >>> print u'Gro\xdfbritannien'
    Großbritannien

任何提示將不勝感激！

Answer 1

當您的文件包含該行時

foo = "Gro\xdfbritannien"

它包含一個實際的反斜杠字符，后跟x ， d和f 。 因此，如果將該行讀取為Python字符串，則將其讀取為

'foo = "Gro\\xdfbritannien"'

（由於這些都是ASCII字符，因此是否使用utf-8編解碼器都可以打開它）。

因此，您需要先使用string_escape編解碼器對其進行解碼：

>>> foo.decode("string_escape")
'Gro\xdfbritannien'

然后將其解碼為正確的Unicode對象

>>> _.decode("latin1")
u'Gro\xdfbritannien'

然后可以打印

>>> print _
Großbritannien

Answer 2

沒有編解碼器的業務。 您應該像這樣'foo =“ Gro \\ xdfbritannien”'

>>> print u'Gro\\xdfbritannien'
Gro\xdfbritannien

在Python中讀取文件時的編碼問題

問題描述

2 個解決方案

解決方案1
4 已采納 2014-02-13 09:12:53

解決方案2
-1 2014-02-13 09:20:44

在Python中讀取文件時的編碼問題

問題描述

2 個解決方案

解決方案1 4 已采納 2014-02-13 09:12:53

解決方案2 -1 2014-02-13 09:20:44

解決方案1
4 已采納 2014-02-13 09:12:53

解決方案2
-1 2014-02-13 09:20:44