使用正则表达式从html标记中剥离所有属性

Question

我一直在尝试公式化正则表达式以删除html标记中可能存在的任何属性，但是我在执行此操作时遇到了麻烦，Google似乎也未提供任何答案。

基本上我的输入字符串看起来像

<p style="font-family:Arial;" class="x" onclick="doWhatever();">this text</p>
<img style="border:0px" src="pic.gif" />

并且我想删除标签内的所有属性以生成类似以下的字符串：

<p>this text</p>
<img src="pic.gif" />

有人知道这样做的正则表达式吗？ 顺便说一下，我在C＃中使用Regex.Replace。

Answer 1

确实有出色的工具可以在.NET中处理此类任务，而不必求助于正则表达式。 这也将比基于正则表达式的解决方案更可靠。

我建议您看一下HTML Agility Pack 。

Answer 2

HTML是最简单的使用DOM进行接口的方法，但是如果您确实想使用正则表达式来执行此操作，则可以利用要删除所有属性的优势，例如，除了标记之外，什么也不要留下。 IMO，您应该改用DOM解析器。

Answer 3

要么使用jquery要么遍历所有html元素并删除attr。 或来自特定元素。 你为什么要这么做呢？