Python和Beautifulsoup Web抓取-選擇帶有特定子標記的段落

Question

我正在嘗試按以下順序從最后一段中隔離“感興趣的文本”文本：

<div class='div_name_class'>
<p>
   <span class='class_name_1' title='title1'>val1</span>
   <span class='class_name_1' title='title2'>val2</span>
</p>
<p><span class='class_name_2'><em>text of no interest</em></span>text of interest</p>

到目前為止，我嘗試了：

print soup.find('span', attrs={'class': 'class_name_2'}).parent.text

print soup.find('em').parent.parent.text

但兩者都返回：“不感興趣的文本不感興趣的文本”

我知道可以將“感興趣的文本”與上述結果分開，但這看起來並不是一個很好的解決方案。

感謝您的建議。

Answer 1

您可以使用extract刪除em標簽，如下所示：

from bs4 import BeautifulSoup

html = """<div class='div_name_class'>
<p>
   <span class='class_name_1' title='title1'>val1</span>
   <span class='class_name_1' title='title2'>val2</span>
</p>
<p><span class='class_name_2'><em>text of no interest</em></span>text of interest</p>"""

soup = BeautifulSoup(html)
p = soup.find('span', attrs={'class': 'class_name_2'}).parent
p.span.em.extract()
print p.text

這將顯示：

text of interest

Python和Beautifulsoup Web抓取-選擇帶有特定子標記的段落

問題描述

1 個解決方案

解決方案1
2 已采納 2016-01-26 18:06:22

Python和Beautifulsoup Web抓取-選擇帶有特定子標記的段落

問題描述

1 個解決方案

解決方案1 2 已采納 2016-01-26 18:06:22

解決方案1
2 已采納 2016-01-26 18:06:22