通過beautifulsoup解析返回的HTML

Question

我試圖在這里解析一些html並使用漂亮的湯

在這一點上，我搜索特定的div標簽，如下所示：

print soup.find("div", {"class": "sorteringsvalg Alle"})

並且返回的輸出如下：

<div class="sorteringsvalg Alle"> Alle  <label class="sorteringtype">
<input checked="" name="type" type="radio" value="Alle"/>(638) </label></div>

我感興趣的是方括號中的數字，因此我需要進一步處理此數據。 我試過對此使用're'正則表達式，但返回的對象未表示為字符串，因此無法正常工作。

Answer 1

找到內部輸入並獲取下一個同級：

div = soup.find("div", {"class": "sorteringsvalg Alle"})
print div.find("input", value="Alle").next_sibling.strip()

或者，只需使用CSS選擇器：

soup.select("div.Alle input[value=Alle]")[0].next_sibling.strip()

Answer 2

您可能會在標記內獲得字符串，如下所示：

print soup.find("label").get_text(strip=True)