[英]With reading hebrew in urllib2 python
我使用以下方法阅读了包含希伯来语字符的网页:
response = ('').join(opener.open(url).readlines())
我得到的结果是混合的,有些字符以unicode的形式返回,我可以处理。
有些回应似乎是乱码。 我无法识别的格式。 收到的文本的一个示例是:שלך
更准确地说,它看起来像这样(仅是一个片段...):
<h3 class="_52r al aps">About גדי</h3><div>שלך ....</div>
div之间的文本似乎乱七八糟。 我可以将其转换为unicode吗?
您正在查看HTML实体; 使用HTMLParser
库对这些内容进行解码:
>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> print h.unescape('שלך')
שלך
>>> h.unescape('שלך')
u'\u05e9\u05dc\u05da'
要读取完整的urllib2
响应,只需使用.read()
:
response = opener.open(url).read()
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.