Beautiful Soup 刪除選擇器后的首次出現

Question

我正在嘗試使用 Beautiful Soup 從 HTML 文本中刪除一些 HTML 。

這可能是我的 HTML 的示例：

<p>whatever</p><h2 class="myclass"><strong>fruit</strong></h2><ul><li>something</li></ul><div>whatever</div><h2 class="myclass"><strong>television</strong></h2><div>whatever</div><ul><li>test</li></ul>

關注這兩個要素：

<h2 class="myclass"><strong>television</strong></h2>
<ul>

我正在嘗試刪除<h2 class="myclass"><strong>television</strong></h2>之后的第一個<ul> ，如果有可能我想刪除這個<ul>只有當它出現 1或<h2>之后的 2 個元素

那可能嗎？

Answer 1

您可以使用 CSS 選擇器搜索第二個<h2>標記： h2:nth-of-type(2) ，如果之后的next_sibling或next_sibling是<ul>標記，則使用.decompose()方法：

from bs4 import BeautifulSoup

html = """<p>whatever</p><h2 class="myclass"><strong>fruit</strong></h2><ul><li>something</li></ul><div>whatever</div><h2 class="myclass"><strong>television</strong></h2><div>whatever</div><ul><li>test</li></ul>"""
soup = BeautifulSoup(html, "html.parser")

looking_for = soup.select_one("h2:nth-of-type(2)")

if (
    looking_for.next_sibling.name == "ul"
    or looking_for.next_sibling.next_sibling.name == "ul"
):
    soup.select_one("ul:nth-of-type(2)").decompose()

print(soup.prettify())

Output：

<p>
 whatever
</p>
<h2 class="myclass">
 <strong>
  fruit
 </strong>
</h2>
<ul>
 <li>
  something
 </li>
</ul>
<div>
 whatever
</div>
<h2 class="myclass">
 <strong>
  television
 </strong>
</h2>
<div>
 whatever
</div>

Answer 2

您可以使用 CSS 選擇器（相鄰兄弟選擇器+ ），然后.extract() ：

for tag in soup.select('h2.myclass+ul'):
    tag.extract()

如果要提取所有相鄰的ul ，請使用~選擇器：

for tag in soup.select('h2.myclass~ul'):
    tag.extract()

Beautiful Soup 刪除選擇器后的首次出現

問題描述

2 個解決方案

解決方案1
1 已采納 2020-12-14 16:13:11

解決方案2
0 2020-12-14 16:05:30

Beautiful Soup 刪除選擇器后的首次出現

問題描述

2 個解決方案

解決方案1 1 已采納 2020-12-14 16:13:11

解決方案2 0 2020-12-14 16:05:30

解決方案1
1 已采納 2020-12-14 16:13:11

解決方案2
0 2020-12-14 16:05:30