python中的iso-8859-1和utf8

Question

我有2个两个字符串，我想将其进行比较。

"Hỗ trợ ngôn ngữ" 我认为这是iso-8859-1编码
u'H\ỗ tr\ợ ng\\xf4n ng\ữ' 。

2个字符串具有相同的内容。 我想比较一下。 如何将第一个字符串转换为与第二个字符串相同的编码？

Answer 1

您具有HTML实体，只需使用HTMLParser模块即可取消转义这些实体：

>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> h.unescape("H&#7895; tr&#7907; ng&#244;n ng&#7919;")
u'H\u1ed7 tr\u1ee3 ng\xf4n ng\u1eef'
>>> print h.unescape("H&#7895; tr&#7907; ng&#244;n ng&#7919;")
Hỗ trợ ngôn ngữ

这些HTML实体使用十进制数字，而不是十六进制。 7895是十六进制的1ed7 ， 1ed7 。它们编码unicode代码点，未使用UTF-8或ISO-8859-1。 ISO-8859-1或Latin-1甚至无法编码这些特定的代码点（根据Google翻译，越南语为“语言支持”）。

python中的iso-8859-1和utf8

问题描述

1 个解决方案

解决方案1
6 已采纳 2013-04-22 12:15:39

python中的iso-8859-1和utf8

问题描述

1 个解决方案

解决方案1 6 已采纳 2013-04-22 12:15:39

解决方案1
6 已采纳 2013-04-22 12:15:39