簡體   English   中英

美麗的湯:刪除僅包含href的標簽

[英]Beautiful Soup: Remove Tags that only contain href

從BeautifulSoup,我得到了特定標簽的列表,其中一些標簽僅包含鏈接,沒有其他文本。 當我在這些上使用get_text()方法時,我得到了鏈接的描述。

但是,當標記包含<a href>元素時,我想忽略它。

Tag: <p class="abc">text1 <a href=...>desc</a> text2</p> -> result: text1 desc text2 (OKAY)

Tag: <p class="abc"><a href=...>desc</a></p> -> result: desc (NOT OKAY)

當標簽僅包含鏈接時,我想將其過濾掉。 我怎樣才能做到這一點?

這個想法是遍歷p標簽並檢查是否只有一個孩子包含a標簽:

from bs4 import BeautifulSoup


data = """
<div>
    <p class="abc">text1 <a href='http://mysite1.com'>desc1</a> text2</p>
    <p class="abc"><a href='http://mysite2.com'>desc2</a></p>
    <p class="abc"><a href='http://mysite3.com'>desc3</a>text3</p>
    <p class="abc">text4<a href='http://mysite4.com'>des4</a></p>
    <p class="abc">text5</p>
</div>
"""
soup = BeautifulSoup(data)
for p in soup('p', class_='abc'):
    if len(p.contents) == 1 and p.contents[0].name == 'a':
        print p

打印:

<p class="abc"><a href="http://mysite2.com">desc2</a></p>

僅供參考, .contents包含標簽的子級列表。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM