Python-删除过多的html标签

Question

所以我目前有这段文字：

<i>This article is written </i><a href="http://google.com"><i>TEST</i></a><i>.</i>

我认为这是一个很好的HTML，但是，我想清理它，删除所有多余的<i>标签，并将其简化为单个<i>标签：

<i>This article is written <a href="http://google.com">TEST</a>.</i>

我试图自己清理它，但是我需要提前阅读文本，并且在此方面还没有取得太大的成功。 是否有可以使用的包装或可以使用的方式，还是必须手动进行？

谢谢

Answer 1

HTML解析器的使用绝对是最可靠的解决方案。 它将能够应付跨越多行的标签。

以下内容将解决您的示例，但可能还不止于此...

def OuterI(text):
    outer = re.search("(.*?)(\<i\>.*<\/i\>)(.*)", text)

    if outer:
        return "%s<i>%s</i>%s" % (outer.group(1), re.sub(r"(\<\/?[iI]\>)", "", outer.group(2)), outer.group(3))
    else:
        return text

print OuterI('<i>This article is written </i><a href="http://google.com"><i>TEST</i></a><i>.</i>')
print OuterI('text before <i>This article is written </i><a href="http://google.com"><i>TEST</i></a><i>.</i> text after')

Python-删除过多的html标签

问题描述

1 个解决方案

解决方案1
0 2015-06-25 14:43:59

Python-删除过多的html标签

问题描述

1 个解决方案

解决方案1 0 2015-06-25 14:43:59

解决方案1
0 2015-06-25 14:43:59