如何解碼轉義的 Unicode 個字符？

Question

我正在嘗試用實際字符替換轉義的 Unicode 字符：

string = "\\u00c3\\u00a4"
print(string.encode().decode("unicode-escape"))

預期的 output 是ä ，實際的Ã¤是 ä 。

Answer 1

["

("\\u00c3\\u00a4"
  .encode('latin-1')
  .decode('unicode_escape')
  .encode('latin-1')
  .decode('utf-8')
)

Answer 2

編解碼器文檔頁面指出：

這意味着“unicode-escape”的 output 將是 latin1，即使 python 的默認值是 utf-8。
所以，你只需要編碼回 latin1 並解碼回 utf-8

mixed_string_to_be_unescaped =  '\u002Fq:85\\u002FczM"},{\"name\":\"Santé\",\"parent_name\":\"Santé'

val = codecs.decode(mixed_string_to_be_unescaped, 'unicode-escape')
val = val.encode('latin1').decode('utf-8')
print(val)

/q:85/czM"},{"name":"Santé","parent_name":"Santé

上面的解決方案有效，但對我來說並不清楚，因為我不明白為什么我應該在 unicode_escape 之前轉換為 latin-1（發現它是自動執行此操作），也不明白為什么它在未轉義的字符串中使用 unicode_escape。

如何解碼轉義的 Unicode 個字符？

問題描述

2 個解決方案

解決方案1
3 已采納 2018-09-22 21:45:25

解決方案2
1 2022-12-06 05:58:13

如何解碼轉義的 Unicode 個字符？

問題描述

2 個解決方案

解決方案1 3 已采納 2018-09-22 21:45:25

解決方案2 1 2022-12-06 05:58:13

解決方案1
3 已采納 2018-09-22 21:45:25

解決方案2
1 2022-12-06 05:58:13