正則表達式提取 HTML 標記之間的文本

Question

我正在尋找一個必須在不同類型的 HTML 標記之間提取文本的正則表達式。

例如：

<span>Span 1</span> - O/p：跨度 1

<div onclick="callMe()">Span 2</div> - O/p：跨度 2

<a href="#">HyperText</a> - O/p：超文本

我從這里找到了這個特定的部分<([AZ][A-Z0-9]*)\b[^>]*>(.*?)</\1>但這一個不起作用。

Answer 1

您的評論表明您忽略了轉義正則表達式字符串中的反斜杠。

如果要匹配小寫字母，請將az添加到字符類或使用Pattern.CASE_INSENSITIVE （或將(?i)添加到正則表達式的開頭）

"<([A-Za-z][A-Za-z0-9]*)\\b[^>]*>(.*?)</\\1>"

如果標簽內容可能包含換行符，則使用Pattern.DOTALL或在正則表達式的開頭添加(?s)以打開 dotall/singleline 模式。

Answer 2

這應該適合您的需求：

<([a-zA-Z]+).*?>(.*?)</\\1>

第一組包含標簽名稱，第二組包含介於兩者之間的值。

Answer 3

Matcher matcher = Pattern.compile("<([a-zA-Z]+).*>(.+)</\\1+>")
    .matcher("<a href=\"#\">HyperText</a>");

while (matcher.find())
{
    String matched = matcher.group(2);

    System.out.println(matched + " found at "
        + "\n"
        + "start at :- " + matcher.start()
        + "\n"
        + "end at :- " + matcher.end()
        + "\n");
}

Answer 4

一個非常具體的方式：

(<span>|<a href="#">|<div onclick="callMe\(\)">)(.*)(</span>|</a>|</div>)

但是，是的，這僅適用於這 3 個示例。 您需要使用 HTML 解析器。

正則表達式提取 HTML 標記之間的文本

問題描述

4 個解決方案

解決方案1
10 已采納 2013-03-28 15:21:10

解決方案2
1 2013-03-28 16:13:12

解決方案3
0 2022-06-21 18:07:48

解決方案4
-1 2013-03-28 15:24:14

正則表達式提取 HTML 標記之間的文本

問題描述

4 個解決方案

解決方案1 10 已采納 2013-03-28 15:21:10

解決方案2 1 2013-03-28 16:13:12

解決方案3 0 2022-06-21 18:07:48

解決方案4 -1 2013-03-28 15:24:14

解決方案1
10 已采納 2013-03-28 15:21:10

解決方案2
1 2013-03-28 16:13:12

解決方案3
0 2022-06-21 18:07:48

解決方案4
-1 2013-03-28 15:24:14