Python将html ascii编码文本转换为utf8

Question

我有一个xml文件，我需要将其转换为utf8。 不幸的是，实体包含这样的文字：

&#047;mytext&#044;

我正在使用编解码器库将文件转换为utf8，但html实体将无法使用它。

有没有一种简单的方法来摆脱HTML编码？

谢谢

Answer 1

您可以在将文件文本传递给XML解析器之前通过unescape函数传递该文本。

或者，如果您只是解析HTML， lxml的http解析器会为您执行此操作：

>>> import lxml.html
>>> html = lxml.html.fromstring("<html><body><p>&#047;mytext&#044;</p></body></html>")
>>> lxml.html.tostring(html)
'<html><body><p>/mytext,</p></body></html>'

Answer 2

最近发布了以下针对类似问题的回复：

import HTMLParser     # html.parser in Python 3
h = HTMLParser.HTMLParser()
h.unescape('&#047;mytext&#044;')

从技术上讲，这种方法是“内部的”并且没有记录，但是它已经在API中存在了很长一段时间，并且没有标记为前导下划线。

在这里找到它; 还提到了其他方法，如果你不介意它的“沉重感”，BeautifulSoup可能是最好的。

Python将html ascii编码文本转换为utf8

问题描述

2 个解决方案

解决方案1
3 已采纳 2012-02-28 17:57:49

解决方案2
1 2012-02-28 18:52:33

Python将html ascii编码文本转换为utf8

问题描述

2 个解决方案

解决方案1 3 已采纳 2012-02-28 17:57:49

解决方案2 1 2012-02-28 18:52:33

解决方案1
3 已采纳 2012-02-28 17:57:49

解决方案2
1 2012-02-28 18:52:33