将HTML标签添加到此正则表达式字符串

Question

我正在使用一个小的JS小插件来截断我正在处理的网站上的多行文本。

唯一的问题是该脚本正在计数HTML标记<a href="..."></a> ，例如在字符计数中，这会使事情有些混乱。

这是脚本当前排除字符的方式。

regex = /[!-\/:-@\[-`{-~]$/

这基本上只是去除某些标点符号。

我尝试将其更改为此；

regex = [!-\/:-@\[-`{-~]$<[^>]*>

但是，由于对regex不太熟悉，所以它似乎没有用。

如果有人可以向正确的方向推动我，那将是很棒的。

Answer 1

在初始正则表达式中，您要查找与字符串尾部匹配的单个字符-它可以是字符，单词，行。 注意美元符号“ $”。

regex = /[!-\/:-@\[-`{-~]$/

现在，您要匹配<和>之间的任何内容。

regex = /[!-\/:-@\[-`{-~]$|<[^>]*$/

请注意，您将匹配： < ， <aaaa ， <aaaa<直到要匹配的字符串的末尾。

greedy_regex = /[!-\/:-@\[-`{-~]$|<[^>]*/
non_greedy_regex = /[!-\/:-@\[-`{-~]$|<[^>]*?/

如果您删除第二个'$' - greedy_regex -它会做一个贪婪的匹配，匹配<b>c</b>的a<b>c</b>d 。 使用? 就像在non_greedy_regex ，它将仅匹配'`。