[英]regex to escape non-html tags' angle brackets
我有一个基于html的文本(带有html标签),我想查找出现在尖括号中的单词,并用<和>替换尖括号,甚至当尖括号用作数学符号时
例如:
String text= "Hello, <b> Whatever <br /> <table> <tr> <td width="300px">
1 < 2 This is a <test> </td> </tr> </table>";
我希望这是:
Hello, <b> Whatever <br /> <table> <tr> <td width="300px">
1 < 2 This is a < test > </td> </tr> </table>
提前致谢
我建议您使用HTML Cleaner
如果查看HomePage,该示例将准确显示文本如何转义。
<td><a href=index.html>1 -> Home Page</a>
转换成
<td>
<a href="index.html">1 -> Home Page</a>
</td>
它将规范化您的html以符合标准xHtml。 我过去曾用过它,但(IMHO)它比jTidy&Co更可靠且更可靠。 (当然最好使用正则表达式或替换策略...)
请参阅RegEx匹配打开的标签(XHTML自包含标签除外),并且不要使用regex解析html。 使用SGML解析器,但不要使用正则表达式。 它经常会失败。 HTML不是常规语言。
如果不是CSS,Javascript和CData部分,则有可能。
如果仅处理HTML的子集,则可以假设可以对未用有效元素标识符字符包围的尖括号进行编码。
类似于“ <(?= [^ A-Za-z_:0-9 /])”->“ <”和“(?<= [^ A-Za-z_:0-9 /])>”- >“>”
但是,除非您自己生成HTML并知道它没有嵌入式CSS,javascript,CData或对象部分,否则...
就像fraido所说的,不要对非规则语言使用正则表达式。
众所周知,您不应该依赖正则表达式来解析HTML。 他们根本做不到。 但是,就我而言,我想捕获看起来好像不在HTML标记中的任何尖括号,然后将其转义。 由于事后所有事情都要经过消毒器处理,因此安全性不是问题,而且结果只需要足够好就可以捕获大多数情况,而不是全部。
您需要一个支持零宽度超前声明的Regexp库。 就我而言,这就是Ruby 1.8中的Oniguruma。
为了匹配小于符号(<),我做到了:
/<(?!(/?[A-Za-z_:0-9]+\s?/?>))/
匹配大于(>)符号比较困难。 大多数库不支持可变长度的零宽度后置断言。 因此,您作弊:反转字符串,运行先行断言,然后使用以下模式反转其后:
>(?!(/?\s?[A-Za-z_:0-9]+/?<))
因此,我的代码看起来像:
match_less_than = Oniguruma::ORegexp.new('<(?!(/?[A-Za-z_:0-9]+\s?/?>))')
match_less_than.gsub!(string, '<')
match_greater_than = Oniguruma::ORegexp.new('>(?!(/?\s?[A-Za-z_:0-9]+/?<))')
string = match_greater_than.gsub(string.reverse, '>'.reverse).reverse
讨厌吧?
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.