繁体   English   中英

python中的iso-8859-1和utf8

[英]iso-8859-1 and utf8 in python

我有2个两个字符串,我想将其进行比较。

  1. "Hỗ trợ ngôn ngữ" 我认为这是iso-8859-1编码
  2. u'H\ỗ tr\ợ ng\\xf4n ng\ữ'

2个字符串具有相同的内容。 我想比较一下。 如何将第一个字符串转换为与第二个字符串相同的编码?

您具有HTML实体,只需使用HTMLParser模块即可取消转义这些实体:

>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> h.unescape("Hỗ trợ ngôn ngữ")
u'H\u1ed7 tr\u1ee3 ng\xf4n ng\u1eef'
>>> print h.unescape("Hỗ trợ ngôn ngữ")
Hỗ trợ ngôn ngữ

这些HTML实体使用十进制数字,而不是十六进制。 7895是十六进制的1ed71ed7 。它们编码unicode代码点,未使用UTF-8或ISO-8859-1。 ISO-8859-1或Latin-1甚至无法编码这些特定的代码点(根据Google翻译,越南语为“语言支持”)。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM