通过beautifulsoup解析返回的HTML

Question

我试图在这里解析一些html并使用漂亮的汤

在这一点上，我搜索特定的div标签，如下所示：

print soup.find("div", {"class": "sorteringsvalg Alle"})

并且返回的输出如下：

<div class="sorteringsvalg Alle"> Alle  <label class="sorteringtype">
<input checked="" name="type" type="radio" value="Alle"/>(638) </label></div>

我感兴趣的是方括号中的数字，因此我需要进一步处理此数据。 我试过对此使用're'正则表达式，但返回的对象未表示为字符串，因此无法正常工作。

Answer 1

找到内部输入并获取下一个同级：

div = soup.find("div", {"class": "sorteringsvalg Alle"})
print div.find("input", value="Alle").next_sibling.strip()

或者，只需使用CSS选择器：

soup.select("div.Alle input[value=Alle]")[0].next_sibling.strip()

Answer 2

您可能会在标记内获得字符串，如下所示：

print soup.find("label").get_text(strip=True)