如何使用正则表达式从字符串中排除 substring 的出现？

Question

我在下面两个forms中有一个字符串输入。

1.

<!--XYZdfdjf., 15456, hdfv.4002-->
<!DOCTYPE

2.

<!--XYZdfdjf., 15456, hdfv.4002
<!DOCTYPE

如果遇到表单 2 并且不匹配表单 1，我想返回一个匹配项。因此，基本上我想要一个正则表达式，它可以任意接受介于两者之间。

我正在使用模式、匹配器和 java 正则表达式。 根据 Pattern.compile() 专用的正则表达式寻求帮助

提前致谢。

Answer 1

Pattern p = Pattern.compile("(?s)<!--(?:(?!-->).)*<!DOCTYPE");

(?:(?.-->).)*一次匹配一个字符，在检查它不是-->的第一个字符之后。

(?s)设置 DOTALL 模式（又名单行模式），允许. 匹配换行符。

如果可能有两个或多个匹配项，并且您想单独查找它们，则可以将*替换为非贪婪*? ，像这样：

"(?s)<!--(?:(?!-->).)*?<!DOCTYPE"

例如，将该正则表达式应用于问题文本将找到两个匹配项，而原始正则表达式将找到一个更长的匹配项。

Answer 2

这似乎很容易通过使用String.contains()解决：

if (yourHtml.contains("-->")) {
    // exclude
} else {
    // extract the content you need
    String content = 
        yourHtml.substring("<!--".length(), yourHtml.indexOf("<!DOCTYPE"));
}

我觉得你看得太远了。

Answer 3

\<!--([\s\S](?!--\>))*?(?=\<\!DOCTYPE)

这使用负前瞻来防止-->和正前瞻来查找<!DOCTYPE Here's a good reference for atomic assertions (lookahead and behind) 。

Answer 4

我没有方便的测试系统，所以我不能给你正则表达式，但你应该在 Pattern 文档中查看称为negative lookahead assertion的东西。 这使您可以表达以下形式的规则：如果没有后跟，则匹配此。

它应该可以帮助你:)

Answer 5

正则表达式可能不是您问题的最佳答案。 您是否尝试过将第一行与其他所有内容分开并查看它是否包含--> ？

具体来说，类似：

String htmlString;
String firstLine = htmlString.split("\r?\n")[0];
if(firstLine.contains("-->"))
    ;//no match
//match

如何使用正则表达式从字符串中排除 substring 的出现？

问题描述

5 个解决方案

解决方案1
4 已采纳 2011-06-09 23:45:21

解决方案2
3 2011-06-09 21:34:23

解决方案3
2 2011-06-09 21:36:04

解决方案4
1 2011-06-09 21:36:17

解决方案5
1 2011-06-09 21:37:24

如何使用正则表达式从字符串中排除 substring 的出现？

问题描述

5 个解决方案

解决方案1 4 已采纳 2011-06-09 23:45:21

解决方案2 3 2011-06-09 21:34:23

解决方案3 2 2011-06-09 21:36:04

解决方案4 1 2011-06-09 21:36:17

解决方案5 1 2011-06-09 21:37:24

解决方案1
4 已采纳 2011-06-09 23:45:21

解决方案2
3 2011-06-09 21:34:23

解决方案3
2 2011-06-09 21:36:04

解决方案4
1 2011-06-09 21:36:17

解决方案5
1 2011-06-09 21:37:24