在urllib2 python中阅读希伯来语

Question

我使用以下方法阅读了包含希伯来语字符的网页：

response = ('').join(opener.open(url).readlines())

我得到的结果是混合的，有些字符以unicode的形式返回，我可以处理。

有些回应似乎是乱码。 我无法识别的格式。 收到的文本的一个示例是：שלך

更准确地说，它看起来像这样（仅是一个片段...）：

<h3 class="_52r al aps">About ‎גדי‎</h3><div>&#x5e9;&#x5dc;&#x5da; ....</div>

div之间的文本似乎乱七八糟。 我可以将其转换为unicode吗？

Answer 1

您正在查看HTML实体； 使用HTMLParser库对这些内容进行解码：

>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> print h.unescape('&#x5e9;&#x5dc;&#x5da;')
שלך
>>> h.unescape('&#x5e9;&#x5dc;&#x5da;')
u'\u05e9\u05dc\u05da'

要读取完整的urllib2响应，只需使用.read() ：

response = opener.open(url).read()

在urllib2 python中阅读希伯来语

问题描述

1 个解决方案

解决方案1
3 已采纳 2013-02-07 13:58:34

在urllib2 python中阅读希伯来语

问题描述

1 个解决方案

解决方案1 3 已采纳 2013-02-07 13:58:34

解决方案1
3 已采纳 2013-02-07 13:58:34