[英]Beautiful soup failing to parse this HTML
我們使用Beautiful Soup成功解析了許多網站,但有一些網站出現了問題。 一個例子是這個頁面:
我們正在為美麗的湯提供確切的來源,但它返回一個矮小的 HTML 字符串,盡管沒有錯誤......
代碼:
soup = BeautifulSoup(site_html)
print str(soup.html)
結果:
<html class="no-js" lang="en"> <!--<![endif]--> </html>
我試圖確定是什么讓它絆倒了,但是看着 html 源代碼,我沒有任何反應。 有沒有人有一些見解?
嘗試不同的解析器,頁面使用html5lib
解析器解析得很好:
>>> soup = BeautifulSoup(r.content, 'html5')
>>> len(soup.find_all('li'))
97
並非所有解析器都可以相同地處理損壞的 HTML。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.