美麗的湯findAll不計算所有div

Question

from bs4 import BeautifulSoup

html = 'index.html'
soup = BeautifulSoup(open(html))
print len(soup.findAll('div'))

其中index.html文件是此購物網頁的源代碼。

我的代碼顯示僅找到1個div標簽。 但是奇怪的是findAll('a')返回一個巨大的（所以可能是正確的）數字。 span工程等，但不是div 。

Answer 1

您正在體驗BeautifulSoup 在后台使用的解析器之間的差異。

選擇html.parser或html5lib ：

>>> from bs4 import BeautifulSoup
>>> html = 'index.html'
>>> soup = BeautifulSoup(open(html), 'html')
>>> len(soup.findAll('div'))
0
>>> soup = BeautifulSoup(open(html), 'lxml')
>>> len(soup.findAll('div'))
0
>>> soup = BeautifulSoup(open(html), 'html.parser')
>>> len(soup.findAll('div'))
774
>>> soup = BeautifulSoup(open(html), 'html5lib')
>>> Alen(soup.findAll('div'))
774

請注意，如果您未指定解析器， BeautifulSoup會自動將其拾取：

如果不指定任何內容，則將獲得已安裝的最佳HTML解析器。 Beautiful Soup將lxml的解析器評為最佳，然后是html5lib的解析器，然后是Python的內置解析器。

美麗的湯findAll不計算所有div

問題描述

1 個解決方案

解決方案1
1 2014-12-07 06:10:20

美麗的湯findAll不計算所有div

問題描述

1 個解決方案

解決方案1 1 2014-12-07 06:10:20

解決方案1
1 2014-12-07 06:10:20