繁体 English 中英

使用正则表达式删除 html 标签

[英]Remove html tags using Regex

原文 2019-07-16 12:56:36 0 1 python/ html/ regex/ beautifulsoup

我试图摆脱 HTML 标签，在某种程度上它有效，但并非所有标签都被删除。 但是下面提到的标签没有消失

print('NOT DEALT WITH:')
for body in not_dealt_with_list:
#p = re.compile(r'<.*?[\\t\\n\\r\\s]*?.*?>')
    print(remove_tags(body))
    #print(p.sub('', body))
    #body = re.sub()

def remove_tags(content):
parser = lxml.html.HTMLParser(remove_comments=True, 
remove_blank_text=True)
document = lxml.html.document_fromstring(content, parser)
return document.text_content()

1 个解决方案

看起来您要删除的内容已嵌入到 html 注释中（因为那里看起来不像 html）。 Html 注释开头，这就是您必须搜索的内容。

尝试使用此正则表达式搜索注释中的所有内容，然后在多行中替换它

<!--(.|\n)*?-->

让我知道它是如何工作的！

在python中使用正则表达式获取html标签

[英]Using regex in python for html tags

使用正则表达式删除python中标签之间的内容

[英]remove content between tags in python using regex

Python正则表达式：删除某些HTML标记及其中的内容

[英]Python regex: remove certain HTML tags and the contents in them

如何使用 python 从 html 中删除标签

[英]How to remove tags from html using python

删除 html 标签及其内容使用 Python

[英]Remove html tags with their contents using Python

正则表达式-带参数的HTML标签

[英]regex - HTML tags with parameters

将正则表达式与html标签结合

[英]Combining regex with html tags

html标签中的正则表达式

[英]Regex within html tags

用于HTML标记的Python正则表达式

[英]Python Regex for html tags

HTML标签的正则表达式模式

[英]Regex Pattern For HTML Tags

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 在python中使用正则表达式获取html标签使用正则表达式删除python中标签之间的内容 Python正则表达式：删除某些HTML标记及其中的内容如何使用 python 从 html 中删除标签删除 html 标签及其内容使用 Python 正则表达式-带参数的HTML标签将正则表达式与html标签结合 html标签中的正则表达式用于HTML标记的Python正则表达式 HTML标签的正则表达式模式

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM