Java找到HTML标签

Question

嗨，我正在尝试从字符串中删除HTML标记。 我要删除的标签是

<td class="gutter"> text text </td>

我尝试了以下操作，但没有任何效果：

String regex = "<td class=\"gutter\">([^<]*)</td>";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(htmlstring);
m.find() / m.matches()

但是似乎根本找不到它……我在做什么错？

Answer 1

您不能使用正则表达式来处理HTML（或XML）。 不可能正确地做到这一点（不是“硬”的，但在技术上是不可能的）。 使用类似Jsoup的HTML解析器。 然后很简单，只需遵循文档即可。

Answer 2

如果要从HTML剥离标签，请使用可以执行此操作的库。 不要滚动自己的HTML解析器。

<plug shameless="true">

一种快速，易于配置的用Java编写的HTML Sanitizer，它使您可以在Web应用程序中包含第三方编写的HTML，同时防止XSS。