簡體   English   中英

美麗的湯未能解析此 HTML

[英]Beautiful soup failing to parse this HTML

我們使用Beautiful Soup成功解析了許多網站,但有一些網站出現了問題。 一個例子是這個頁面:

http://www.designsponge.com/2013/04/biz-ladies-how-to-use-networking-to-improve-your-search-engine-rankings.html

我們正在為美麗的湯提供確切的來源,但它返回一個矮小的 HTML 字符串,盡管沒有錯誤......

代碼:

soup = BeautifulSoup(site_html)
print str(soup.html)

結果:

<html class="no-js" lang="en"> <!--&lt;![endif]--> </html>

我試圖確定是什么讓它絆倒了,但是看着 html 源代碼,我沒有任何反應。 有沒有人有一些見解?

嘗試不同的解析器,頁面使用html5lib解析器解析得很好:

>>> soup = BeautifulSoup(r.content, 'html5')
>>> len(soup.find_all('li'))
97

並非所有解析器都可以相同地處理損壞的 HTML。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM