美丽的汤：删除仅包含href的标签

Question

从BeautifulSoup，我得到了特定标签的列表，其中一些标签仅包含链接，没有其他文本。 当我在这些上使用get_text()方法时，我得到了链接的描述。

但是，当标记仅包含<a href>元素时，我想忽略它。

Tag: <p class="abc">text1 <a href=...>desc</a> text2</p> -> result: text1 desc text2 (OKAY)

Tag: <p class="abc"><a href=...>desc</a></p> -> result: desc (NOT OKAY)

当标签仅包含链接时，我想将其过滤掉。 我怎样才能做到这一点？

Answer 1

这个想法是遍历p标签并检查是否只有一个孩子包含a标签：

from bs4 import BeautifulSoup


data = """
<div>
    <p class="abc">text1 <a href='http://mysite1.com'>desc1</a> text2</p>
    <p class="abc"><a href='http://mysite2.com'>desc2</a></p>
    <p class="abc"><a href='http://mysite3.com'>desc3</a>text3</p>
    <p class="abc">text4<a href='http://mysite4.com'>des4</a></p>
    <p class="abc">text5</p>
</div>
"""
soup = BeautifulSoup(data)
for p in soup('p', class_='abc'):
    if len(p.contents) == 1 and p.contents[0].name == 'a':
        print p

打印：

<p class="abc"><a href="http://mysite2.com">desc2</a></p>

仅供参考， .contents包含标签的子级列表。

美丽的汤：删除仅包含href的标签

问题描述

1 个解决方案

解决方案1
1 已采纳 2014-05-13 14:44:26

美丽的汤：删除仅包含href的标签

问题描述

1 个解决方案

解决方案1 1 已采纳 2014-05-13 14:44:26

解决方案1
1 已采纳 2014-05-13 14:44:26