Java正則表達式匹配HTML

Question

解決方案：

String p="<pre>[\\\\w\\\\W]*</pre>";

我想匹配並捕獲<pre> </ pre>標記的包圍內容，嘗試了以下操作，但不起作用，怎么了？

String p="<pre>.*</pre>";

        Matcher m=Pattern.compile(p,Pattern.MULTILINE|Pattern.CASE_INSENSITIVE).matcher(input);
        if(m.find()){
            String g=m.group(0);
            System.out.println("g is "+g);
        }

Answer 1

您需要DOTALL標志，而不是MULTILINE。 MULTILINE改變^和$的行為，而DOTALL是允許的行為. 匹配行分隔符。 您可能也想使用勉強的量詞：

String p = "<pre>.*?</pre>";

Answer 2

實際上，正則表達式不是正確的工具。 使用解析器。 Jsoup是一個不錯的選擇。

Document document = Jsoup.parse(html);
for (Element element : document.getElementsByTag("pre")) {
    System.out.println(element.text());
}

parse()方法還可以采用URL或File 。

我之所以推薦Jsoup的原因是，它是我嘗試過的所有HTML解析器中最不冗長的。 它不僅提供類似JavaScript的方法，返回實現Iterable元素，而且還支持類似選擇器的jQuery ，這對我來說是一大好處。

Answer 3

String stringToSearch = "H1 FOUR H1 SCORE AND SEVEN YEARS AGO OUR FATHER...";

// the case-insensitive pattern we want to search for
Pattern p = Pattern.compile("H1", Pattern.CASE_INSENSITIVE);

Matcher m = p.matcher(stringToSearch);

// see if we found a match
int count = 0;
while (m.find())
    count++;

System.out.println("H1 : "+count);

Java正則表達式匹配HTML

問題描述

3 個解決方案

解決方案1
3 2010-05-08 00:30:27

解決方案2
3 2010-05-08 00:36:20

解決方案3
1 2015-07-26 19:00:44

Java正則表達式匹配HTML

問題描述

3 個解決方案

解決方案1 3 2010-05-08 00:30:27

解決方案2 3 2010-05-08 00:36:20

解決方案3 1 2015-07-26 19:00:44

解決方案1
3 2010-05-08 00:30:27

解決方案2
3 2010-05-08 00:36:20

解決方案3
1 2015-07-26 19:00:44