繁体   English   中英

通过beautifulsoup安全地移除标签中的孩子

[英]Safely remove children in a tag by beautifulsoup

假设现在我有一个通过 findAll 在汤中获得的标签div

div = <div>text1<span>text2<\span>text3</div>

请注意,我想保留一些外部结构。 例如, div.previous_element将连接到汤中的其他标签。 现在我展开了跨度,以便

div.contents=['text1','text2','text3']

我想要的是:

  1. div.contents=['text1text2text3']
  2. div.string 不是没有。
  3. 与汤的连接没有被切断(div.previous_element 也工作)

尝试这个。

from simplified_scrapy.simplified_doc import SimplifiedDoc
html='''<div>text1<span>text2<\span>text3</div>'''
doc = SimplifiedDoc(html)
div = doc.div
print (div)
print (div.text)

结果:

{'tag': 'div', 'html': 'text1<span>text2<\\span>text3'}
text1text2text3

您可以在此处获取 SimplifiedDoc 的示例

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM