如何使用div标签作为使用BeautifulSoup搜索html文档的起点

Question

我有一个HTML文档，我想解析出具有特定ID的表，该表始终位于具有特定ID的div标记内。 这是我尝试过的：

soup = BeautifulSoup(html)
target_div = soup('div', {'id' : 'left'})
target_table = target_div.findNextSibling('table')

显然，这是行不通的。 似乎我的第二条语句返回了ResultSet，而不是在文档中四处移动（我认为这很有意义，但是我不确定如何获得我需要的东西！）。 进行这种解析的正确方法是什么？

Answer 1

findNextSibling查找与原始target_div元素包含在同一父级中的表。 您要查找div中包含的表。 .find()使用.find() ：

target_div = soup.find('div', {'id' : 'left'})
target_table = target_div.find('table')

对于简单情况（例如包含的表），可以将标记名用作属性：

target_div = soup.find('div', {'id' : 'left'})
target_table = target_div.table

您正在调用标记，就像使用.find_all()方法一样。 .find_all()返回所有匹配的标签，一个列表。 您必须遍历结果集，但是由于要查找单个 div（使用其ID），因此最好使用.find() ，它仅返回一个结果。

如果确实需要处理多个匹配项，只需将.find_all()的结果视为列表即可； 循环：

for element in soup.find_all('div')
    contained_table = element.find('table')

或使用索引：

second_match = soup.find_all('div')[1]

Answer 2

您还可以使用CSS选择器：

target_table = soup.select('div#yourid > table#yourtableid')[0]