在python中解碼錯誤的轉義字符

Question

所以我有一個有很多名字的數據庫。 名字有壞字符。 例如，記錄中的名字是JosÃ© Florés我想清理它以獲得José Florés

我嘗試了以下

name = "    JosÃ©     Florés "
print(name.encode('iso-8859-1',errors='ignore').decode('utf8',errors='backslashreplace')

輸出將姓氏' José Flor\\\\xe9s '為' José Flor\\\\xe9s '

解決這個問題的最佳方法是什么？ 名稱可以有任何類型的 unicode 或 hex 轉義序列。

Answer 1

ftfy是一個 python 庫，它使用名為fix_text的函數修復以不同方式損壞的 unicode 文本。

from ftfy import fix_text

def convert_iso_name_to_string(name):
    result = []

    for word in name.split():
        result.append(fix_text(word))
    return ' '.join(result)

name = "JosÃ© Florés"
assert convert_iso_name_to_string(name) == "José Florés"

使用fix_text方法可以標准化名稱，這是解決問題的另一種方法。

Answer 2

我們將從一個包含非 ASCII 字符（即“ü”或“變音-u”）的示例字符串開始：

s = 'Florés'

現在，如果我們引用並打印字符串，它會給我們本質上相同的結果：

>>> s
'Florés'
>>> print(s)
Florés

與 Python 2.x 中相同的字符串 s 不同，在這種情況下 s 已經是一個 Unicode 字符串，並且 Python 3.x 中的所有字符串都自動是 Unicode。 明顯的區別是s在我們實例化之后沒有改變

您可以在此處找到相同的編碼和解碼字符串

在python中解碼錯誤的轉義字符

問題描述

2 個解決方案

解決方案1
4 已采納 2019-01-03 19:57:05

解決方案2
-1 2019-01-03 18:44:16

在python中解碼錯誤的轉義字符

問題描述

2 個解決方案

解決方案1 4 已采納 2019-01-03 19:57:05

解決方案2 -1 2019-01-03 18:44:16

解決方案1
4 已采納 2019-01-03 19:57:05

解決方案2
-1 2019-01-03 18:44:16