繁体   English   中英

如何使用 Bleach 完全删除来自 HTML 的链接?

[英]How to remove links from HTML completely with Bleach?

Bleach从 HTML 中剥离非白名单标签,但留下子节点,例如

>>> import bleach
>>> bleach.clean("<a href="">stays</a>", strip=True, tags=[])
'stays'
>>>  

如何删除整个元素及其子元素?

你应该使用lxml Bleach 仅用于清理数据并确保您存储的标记的安全性。

您可以使用lxml来解析结构化数据,例如 HTML 或 XML。

考虑一个简单的 html 文件;

<html>
<body>
<p>Hello, World!</p>
</body>
</html>
from lxml import html

root = html.parse("hello_world.html").getroot()

print(html.tostring(root))

# <html><body><p>Hello, World!</p></body></html>

p = root.find("body/p")

p.drop_tree()

print(html.tostring(root))

# <html><body></body></html>

在相关说明中,如果您想使用lxml研究一些更高级的解析,我在这里最古老的问题之一是让 python 解析 xml 并从中编写 python 代码。 编写一个 Python 工具将 XML 转换为 Python?

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM