[英]Safely remove children in a tag by beautifulsoup
假设现在我有一个通过 findAll 在汤中获得的标签div
。
div = <div>text1<span>text2<\span>text3</div>
请注意,我想保留一些外部结构。 例如, div.previous_element
将连接到汤中的其他标签。 现在我展开了跨度,以便
div.contents=['text1','text2','text3']
我想要的是:
尝试这个。
from simplified_scrapy.simplified_doc import SimplifiedDoc
html='''<div>text1<span>text2<\span>text3</div>'''
doc = SimplifiedDoc(html)
div = doc.div
print (div)
print (div.text)
结果:
{'tag': 'div', 'html': 'text1<span>text2<\\span>text3'}
text1text2text3
您可以在此处获取 SimplifiedDoc 的示例
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.