在python中解码错误的转义字符

Question

所以我有一个有很多名字的数据库。 名字有坏字符。 例如，记录中的名字是JosÃ© Florés我想清理它以获得José Florés

我尝试了以下

name = "    JosÃ©     Florés "
print(name.encode('iso-8859-1',errors='ignore').decode('utf8',errors='backslashreplace')

输出将姓氏' José Flor\\\\xe9s '为' José Flor\\\\xe9s '

解决这个问题的最佳方法是什么？ 名称可以有任何类型的 unicode 或 hex 转义序列。

Answer 1

ftfy是一个 python 库，它使用名为fix_text的函数修复以不同方式损坏的 unicode 文本。

from ftfy import fix_text

def convert_iso_name_to_string(name):
    result = []

    for word in name.split():
        result.append(fix_text(word))
    return ' '.join(result)

name = "JosÃ© Florés"
assert convert_iso_name_to_string(name) == "José Florés"

使用fix_text方法可以标准化名称，这是解决问题的另一种方法。

Answer 2

我们将从一个包含非 ASCII 字符（即“ü”或“变音-u”）的示例字符串开始：

s = 'Florés'

现在，如果我们引用并打印字符串，它会给我们本质上相同的结果：

>>> s
'Florés'
>>> print(s)
Florés

与 Python 2.x 中相同的字符串 s 不同，在这种情况下 s 已经是一个 Unicode 字符串，并且 Python 3.x 中的所有字符串都自动是 Unicode。 明显的区别是s在我们实例化之后没有改变

您可以在此处找到相同的编码和解码字符串

在python中解码错误的转义字符

问题描述

2 个解决方案

解决方案1
4 已采纳 2019-01-03 19:57:05

解决方案2
-1 2019-01-03 18:44:16

在python中解码错误的转义字符

问题描述

2 个解决方案

解决方案1 4 已采纳 2019-01-03 19:57:05

解决方案2 -1 2019-01-03 18:44:16

解决方案1
4 已采纳 2019-01-03 19:57:05

解决方案2
-1 2019-01-03 18:44:16