正則表達式匹配<a ..>和</a>之間的文本

Question

是否有人能夠提供正則表達式以匹配HTML片段中<a> and </a>標記之間的鏈接文本。

示例數據： <a href="link.html">Link Title</a> - 15 comments <br/> <a href="otherlink.html">Some other Title</a> - 6 comments

要求：我只需要提取鏈接文本（即<a> and </a>之間的鏈接文本 - 鏈接標題和其他標題 ）以在我的應用程序中使用。

請注意，鏈接文本可能包含非英文字符和所有可能的截斷。 我試過用'。' 運算符，但由於它執行貪婪匹配，因此它匹配第一個<a>和最后一個</a>之間的整個文本。 但我只想要鏈接文本。

有幫助嗎？

Answer 1

停止使用正則表達式'解析'html。

https://blog.codinghorror.com/parsing-html-the-cthulhu-way/

除了XHTML自包含標記之外，RegEx匹配開放標記

去使用真正的解析器。

http://java-source.net/open-source/html-parsers

Answer 2

嘗試

<a[^>]+>(.*?)</a>

Answer 3

這已經在StackOverflow上進行了數十次討論（在其他論壇上已有數千次），但顯然它仍然需要重復： 它無法完成 。

正則表達式只能解析常規語言。 HTML 不是常規語言。 證明你不能用正則表達式解析HTML是一個定期（雙關語）的家庭作業任務幾乎在這個星球上的每個學院和大學。 它已被成千上萬的人證實。 它與任何數學證明一樣可以防水。 這是一個非常簡短，非常簡單，非常平易近人的證據。 任何人都無法在其中找到隱藏的缺陷，因為證據是如此簡單和小巧，以至於明顯無處可隱藏任何缺陷。

哦，我提到它不能做到嗎？

這不是旅行商問題，需要很長時間才能運行。 它不是P = NP，我們不知道它是否真實。

這是真的，絕對，100％，積極，完全，可證明是不可能的。

我忘了。 我是否已經提到它無法完成 ？

正則表達式匹配<a ..>和</a>之間的文本

問題描述

3 個解決方案

解決方案1
6 2010-01-19 06:13:39

解決方案2
2 已采納 2010-01-19 06:11:51

解決方案3
0 2010-01-19 07:06:47

正則表達式匹配<a ..>和</a>之間的文本

問題描述

3 個解決方案

解決方案1 6 2010-01-19 06:13:39

解決方案2 2 已采納 2010-01-19 06:11:51

解決方案3 0 2010-01-19 07:06:47

解決方案1
6 2010-01-19 06:13:39

解決方案2
2 已采納 2010-01-19 06:11:51

解決方案3
0 2010-01-19 07:06:47