繁体   English   中英

Java找到HTML标签

[英]Java find html tag

嗨,我正在尝试从字符串中删除HTML标记。 我要删除的标签是

<td class="gutter"> text text </td>

我尝试了以下操作,但没有任何效果:

String regex = "<td class=\"gutter\">([^<]*)</td>";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(htmlstring);
m.find() / m.matches()

但是似乎根本找不到它……我在做什么错?

您不能使用正则表达式来处理HTML(或XML)。 不可能正确地做到这一点(不是“硬”的,但在技术上是不可能的)。 使用类似Jsoup的HTML解析器。 然后很简单,只需遵循文档即可。

如果要从HTML剥离标签,请使用可以执行此操作的库。 不要滚动自己的HTML解析器。

<plug shameless="true">

http://code.google.com/p/owasp-java-html-sanitizer/

一种快速,易于配置的用Java编写的HTML Sanitizer,它使您可以在Web应用程序中包含第三方编写的HTML,同时防止XSS。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM