Python csv.DictReader嵌入非Unicode字符

Question

我正在嘗試將csv導入python中的JSON中：

myjson = list()
with open("stuff.csv","rU") as f:
    vals = csv.DictReader(f)
    for i in vals:
        myjson.append(i)

當我使用csv的DictReader（）時，幾乎在每條記錄中，我通常都會得到看似無效的unicode字符，例如：

\xc9

...在文本字段中。 據我所知，這是上下顛倒e的有效unicode字符 。 但是，由於它嵌入在較長的字符串中，因此似乎實際上未編碼，並且整個鍵是str類型而不是unicode類型。

我假設這是我獲得的數據條目或csv模塊的遺留物，但是是否有任何標志，標記或替代的讀取CSV的方式來通過轉換來適當地處理此內容？

Answer 1

您正在查看Python字符串文字。 \\xc9序列是轉義代碼，Python將其用於任何不可打印或在代碼點128上的代碼點。對於超過255的代碼點，將使用\\uxxxx轉義序列。

默認情況下，Python將打印包含在容器中的值的表示形式，例如列表或字典。 unicode值的表示形式（ repr()函數結果）打印為python字符串文字：

>>> print [u'Hello: \xc9']
[u'Hello: \xc9']
>>> print [u'Hello: \xc9'][0]
Hello: É