使用Python進行UTF-8解碼

Question

我有一個帶有一些數據的csv，並且在一行中以utf-8編碼后添加了一段文本。

這是文本：

"b'\xe7\x94\xb3\xe8\xbf\xaa\xe8\xa5\xbf\xe8\xb7\xaf255\xe5\xbc\x84660\xe5\x8f\xb7\xe5\x92\x8c665\xe5\x8f\xb7 \xe4\xb8\xad\xe5\x9b\xbd\xe4\xb8\x8a\xe6\xb5\xb7\xe6\xb5\xa6\xe4\xb8\x9c\xe6\x96\xb0\xe5\x8c\xba 201205'"

我正在嘗試使用此文本通過解碼功能獲取原始字符，但這是不可能的。

有誰知道正確的程序嗎？

Answer 1

假設文件中的行完全是這樣的：

b'\xe7\x94\xb3\xe8\xbf\xaa\xe8\xa5\xbf\xe8\xb7\xaf255\xe5\xbc\x84660\xe5\x8f\xb7\xe5\x92\x8c665\xe5\x8f\xb7 \xe4\xb8\xad\xe5\x9b\xbd\xe4\xb8\x8a\xe6\xb5\xb7\xe6\xb5\xa6\xe4\xb8\x9c\xe6\x96\xb0\xe5\x8c\xba 201205'

從文件中讀取該行將得到輸出：

>>> line
"b'\\xe7\\x94\\xb3\\xe8\\xbf\\xaa\\xe8\\xa5\\xbf\\xe8\\xb7\\xaf255\\xe5\\xbc\\x84660\\xe5\\x8f\\xb7\\xe5\\x92\\x8c665\\xe5\\x8f\\xb7 \\xe4\\xb8\\xad\\xe5\\x9b\\xbd\\xe4\\xb8\\x8a\\xe6\\xb5\\xb7\\xe6\\xb5\\xa6\\xe4\\xb8\\x9c\\xe6\\x96\\xb0\\xe5\\x8c\\xba 201205'"`

您可以嘗試使用eval()函數：

with open(r"your_csv.csv", "r") as csvfile:
    for line in csvfile:
        # when you reach the desired line
        b = eval(line).decode('utf-8')

輸出：

>>> print(b)
'申迪西路255弄660號和665號 中國上海浦東新區 201205'

Answer 2

嘗試這個：-

a = b'\xe7\x94\xb3\xe8\xbf\xaa\xe8\xa5\xbf\xe8\xb7\xaf255\xe5\xbc\x84660\xe5\x8f\xb7\xe5\x92\x8c665\xe5\x8f\xb7 \xe4\xb8\xad\xe5\x9b\xbd\xe4\xb8\x8a\xe6\xb5\xb7\xe6\xb5\xa6\xe4\xb8\x9c\xe6\x96\xb0\xe5\x8c\xba 201205'
print(a.decode('utf-8')) #your decoded output

正如您所說的，您正在從文件中讀取內容，那么您可以在讀取時嘗試通過傳遞編碼系統：

import codecs
f = codecs.open('unicode.rst', encoding='utf-8')
for line in f:
    print repr(line)

使用Python進行UTF-8解碼

問題描述

2 個解決方案

解決方案1
4 已采納 2018-02-21 10:48:47

解決方案2
0 2018-02-21 10:00:05

使用Python進行UTF-8解碼

問題描述

2 個解決方案

解決方案1 4 已采納 2018-02-21 10:48:47

解決方案2 0 2018-02-21 10:00:05

解決方案1
4 已采納 2018-02-21 10:48:47

解決方案2
0 2018-02-21 10:00:05