繁体   English   中英

在urllib2 python中阅读希伯来语

[英]With reading hebrew in urllib2 python

我使用以下方法阅读了包含希伯来语字符的网页:

response = ('').join(opener.open(url).readlines())

我得到的结果是混合的,有些字符以unicode的形式返回,我可以处理。

有些回应似乎是乱码。 我无法识别的格式。 收到的文本的一个示例是:שלך

更准确地说,它看起来像这样(仅是一个片段...):

<h3 class="_52r al aps">About ‎גדי‎</h3><div>&#x5e9;&#x5dc;&#x5da; ....</div>

div之间的文本似乎乱七八糟。 我可以将其转换为unicode吗?

您正在查看HTML实体; 使用HTMLParser对这些内容进行解码:

>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> print h.unescape('&#x5e9;&#x5dc;&#x5da;')
שלך
>>> h.unescape('&#x5e9;&#x5dc;&#x5da;')
u'\u05e9\u05dc\u05da'

要读取完整的urllib2响应,只需使用.read()

response = opener.open(url).read()

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM