美麗的湯未能解析此 HTML

Question

我們使用Beautiful Soup成功解析了許多網站，但有一些網站出現了問題。 一個例子是這個頁面：

我們正在為美麗的湯提供確切的來源，但它返回一個矮小的 HTML 字符串，盡管沒有錯誤......

代碼：

soup = BeautifulSoup(site_html)
print str(soup.html)

結果：

<html class="no-js" lang="en"> <!--&lt;![endif]--> </html>

我試圖確定是什么讓它絆倒了，但是看着 html 源代碼，我沒有任何反應。 有沒有人有一些見解？

Answer 1

嘗試不同的解析器，頁面使用html5lib解析器解析得很好：

>>> soup = BeautifulSoup(r.content, 'html5')
>>> len(soup.find_all('li'))
97

並非所有解析器都可以相同地處理損壞的 HTML。