繁体   English   中英

美丽的汤未能解析此 HTML

[英]Beautiful soup failing to parse this HTML

我们使用Beautiful Soup成功解析了许多网站,但有一些网站出现了问题。 一个例子是这个页面:

http://www.designsponge.com/2013/04/biz-ladies-how-to-use-networking-to-improve-your-search-engine-rankings.html

我们正在为美丽的汤提供确切的来源,但它返回一个矮小的 HTML 字符串,尽管没有错误......

代码:

soup = BeautifulSoup(site_html)
print str(soup.html)

结果:

<html class="no-js" lang="en"> <!--&lt;![endif]--> </html>

我试图确定是什么让它绊倒了,但是看着 html 源代码,我没有任何反应。 有没有人有一些见解?

尝试不同的解析器,页面使用html5lib解析器解析得很好:

>>> soup = BeautifulSoup(r.content, 'html5')
>>> len(soup.find_all('li'))
97

并非所有解析器都可以相同地处理损坏的 HTML。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM