如何僅獲取 HTML 樹的一部分，該部分位於帶有特定字符串 BeautifulSoup 的特定標簽之上？

Question

我有一個 HTML 樹，只想要它的一部分。 即我只想要 HTML 樹的一部分，它位於帶有字符串的某個標簽之上。 該示例僅包含一個帶有Notes字符串的b標簽，但可能有多個。

<br/>
Hello
<br/>
<b>
 Notes
</b>
<br/>
Hello
<a name="test">
  Hello2
</a>

應該成為

<br/>
Hello
<br/>

使用我的代碼，我只能將所需的 output 作為列表而不是 HTML 樹。

#book.html contains the example from above
openHtml = open('book.html', 'r')
soup = BeautifulSoup(openHtml, 'html.parser')
all=soup.find_all('b')
for i in all:
    if i.text.strip() == 'Notes':
        pos = all.index(i)
soup = soup.find_all("b")[pos].find_all_previous(string=True)
print(soup)

如何獲得與 HTML 相同的結果而不是列表？

Answer 1

解決方案

我遍歷列表並刪除了所需標簽之后的每個元素，並從末尾刪除了標簽本身。

openHtml = open('book.html', 'r')
soup = BeautifulSoup(openHtml, 'html.parser')
all=soup.find_all('b')
for i in all:
    if i.text.strip() == 'Notes':
        pos = all.index(i)
for i in soup.find_all("b")[pos]:
    for j in i.find_all_next():
        j.extract()
soup.find_all('b')[-1].extract()
print(soup.prettify())

如何僅獲取 HTML 樹的一部分，該部分位於帶有特定字符串 BeautifulSoup 的特定標簽之上？

問題描述

1 個解決方案

解決方案1
0 2022-09-14 21:03:45

如何僅獲取 HTML 樹的一部分，該部分位於帶有特定字符串 BeautifulSoup 的特定標簽之上？

問題描述

1 個解決方案

解決方案1 0 2022-09-14 21:03:45

解決方案1
0 2022-09-14 21:03:45