繁体   English   中英

Java正则表达式匹配HTML

[英]java Regular expression matching html

解决方案:

String p="<pre>[\\\\w\\\\W]*</pre>";

我想匹配并捕获<pre> </ pre>标记的包围内容,尝试了以下操作,但不起作用,怎么了?

String p="<pre>.*</pre>";

        Matcher m=Pattern.compile(p,Pattern.MULTILINE|Pattern.CASE_INSENSITIVE).matcher(input);
        if(m.find()){
            String g=m.group(0);
            System.out.println("g is "+g);
        }

您需要DOTALL标志,而不是MULTILINE。 MULTILINE改变^$的行为,而DOTALL是允许的行为. 匹配行分隔符。 您可能也想使用勉强的量词:

String p = "<pre>.*?</pre>";

实际上,正则表达式不是正确的工具。 使用解析器。 Jsoup是一个不错的选择。

Document document = Jsoup.parse(html);
for (Element element : document.getElementsByTag("pre")) {
    System.out.println(element.text());
}

parse()方法还可以采用URLFile


我之所以推荐Jsoup的原因是,它是我尝试过的所有HTML解析器中最不冗长的。 它不仅提供类似JavaScript的方法,返回实现Iterable元素,而且还支持类似选择器的jQuery ,这对我来说是一好处。

String stringToSearch = "H1 FOUR H1 SCORE AND SEVEN YEARS AGO OUR FATHER...";

// the case-insensitive pattern we want to search for
Pattern p = Pattern.compile("H1", Pattern.CASE_INSENSITIVE);

Matcher m = p.matcher(stringToSearch);

// see if we found a match
int count = 0;
while (m.find())
    count++;

System.out.println("H1 : "+count);   

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM