Java Regex從HTML錨點（<a> ... </a>）標記中獲取文本

Question

我正在嘗試在某個標簽內獲取文本。 所以，如果我有：

<a href="http://something.com">Found<a/>

我希望能夠檢索Found文本。

我正在嘗試使用正則表達式。 如果<a href="http://something.com>保持不變，但事實並非如此，我能夠做到這一點。

到目前為止我有這個：

Pattern titleFinder = Pattern.compile( ".*[a-zA-Z0-9 ]* ([a-zA-Z0-9 ]*)</a>.*" );

我認為最后兩部分 - ([a-zA-Z0-9 ]*)</a>.* - 還可以，但我不知道該如何處理第一部分。

Answer 1

正如他們所說，不要使用正則表達式來解析HTML。 如果你意識到這些缺點，你可能會僥幸逃脫。 嘗試

Pattern titleFinder = Pattern.compile("<a[^>]*>(.*?)</a>", Pattern.DOTALL | Pattern.CASE_INSENSITIVE);
Matcher regexMatcher = titleFinder.matcher(subjectString);
while (regexMatcher.find()) {
    // matched text: regexMatcher.group(1)
}

將迭代字符串中的所有匹配項。

它不會處理嵌套的<a>標記並忽略標記內的所有屬性。

Answer 2

str.replaceAll("</?a>", "");

這是在線ideone演示

以下是類似主題：如何僅從文本中刪除標記？

Java Regex從HTML錨點（<a> ... </a>）標記中獲取文本

問題描述

2 個解決方案

解決方案1
6 已采納 2011-01-07 18:17:08

解決方案2
0

Java Regex從HTML錨點（<a> ... </a>）標記中獲取文本

問題描述

2 個解決方案

解決方案1 6 已采納 2011-01-07 18:17:08

解決方案2 0

解決方案1
6 已采納 2011-01-07 18:17:08

解決方案2
0