除一個標簽外，在BeautifulSoup中提取文本

Question

我正在嘗試使用BeautifulSoup提取文本。

這是html：

<div>
    "BLABLA"
    <span> "RRRRR" </span>
    <span> "ZZZZZ" </span>
</div>

我只想獲得'BLABLA'和'RRRR'並獲得'ZZZZ'

當然soup.text 。文本給了我這三個文本。

一種解決方案是進行迭代，直到找到第二個跨度為止（如這個問題：如何使用BeautifulSoup在兩個指定標簽之間獲取所有文本？）

但是在這種情況下有更好的解決方案嗎？

Answer 1

您可以使用以下代碼（可以根據需要進行修改）：

from bs4 import BeautifulSoup, NavigableString

html = '''
<div>
    "BLABLA"
    <span> "RRRRR" </span>
    <span> "ZZZZZ" </span>
</div>'''
soup = BeautifulSoup(html, 'lxml')

wanted_text = [x.strip() if isinstance(x, NavigableString) else x.text.strip() for x in soup.find('div').contents[:2]]
print(wanted_text)
# ['"BLABLA"', '"RRRRR"']

如果HTML稍有變化，則只需更改切片索引（即，將contents[:2]更改為所需的contents[:2] ）。

除一個標簽外，在BeautifulSoup中提取文本

問題描述

1 個解決方案

解決方案1
0 2018-03-27 18:39:15

除一個標簽外，在BeautifulSoup中提取文本

問題描述

1 個解決方案

解決方案1 0 2018-03-27 18:39:15

解決方案1
0 2018-03-27 18:39:15