如何在保留一些內部標簽的同時獲取此 html 元素的文本

Question

我正在使用 BeautifulSoup 並在我的文檔中找到了一個元素，如下所示：

<p><a id="_Toc374204393"></a><a id="_Toc374204469"></a>Hershey's<sup>®</sup> makes yummy chocolate</p>

我想提取

Hershey's<sup>®</sup> makes yummy chocolate

我知道我可以使用這個項目並獲取它的.contents ，然后如果它不包含<a> ，則重新加入文本，但這似乎是一種超級hacky的方法。 我還能如何獲得此文本？ 使用get_text()類的方法返回文本但沒有我想保留的<sup>標簽。

Answer 1

您可以使用next_siblings ：

from bs4 import BeautifulSoup

html = """<p><a id="_Toc374204393"></a><a id="_Toc374204469"></a>Hershey's<sup>®</sup> makes yummy chocolate</p>"""
soup = BeautifulSoup(html, "html.parser")

print(
    "".join(str(x) for x in soup.find("a", id="_Toc374204469").next_siblings)
)

輸出：

Hershey's<sup>®</sup> makes yummy chocolate

Answer 2

迄今為止我發現的最佳解決方案是使用bleach包。 有了這個，我就可以了

import bleach
bleach.clean(my_html, tags=['sup'], strip=True)

起初這對我不起作用，因為我的 html 是一個 BeautifulSoup Tag對象，而漂白劑需要 html。 所以我只是做了str(Tag)來獲取 html 表示並將其喂給漂白劑。

Answer 3

這是迄今為止所需的解決方案

from bs4 import BeautifulSoup

html_doc="""
<p><a id="_Toc374204393"></a><a id="_Toc374204469"></a>Hershey's<sup>®</sup> makes yummy chocolate</p>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

s = soup.find('p')
for t in s.select('p a'):
    t.decompose()

print(s)

輸出：

<p>Hershey's<sup>®</sup> makes yummy chocolate</p>

如何在保留一些內部標簽的同時獲取此 html 元素的文本

問題描述

2 個解決方案

解決方案1
0 2021-10-27 21:47:04

解決方案2
0 2021-10-27 22:36:09

解決方案3
0 2021-10-27 22:37:20

如何在保留一些內部標簽的同時獲取此 html 元素的文本

問題描述

2 個解決方案

解決方案1 0 2021-10-27 21:47:04

解決方案2 0 2021-10-27 22:36:09

解決方案3 0 2021-10-27 22:37:20

解決方案1
0 2021-10-27 21:47:04

解決方案2
0 2021-10-27 22:36:09

解決方案3
0 2021-10-27 22:37:20