簡體   English   中英

正則表達式匹配<a ..>和</a>之間的文本

[英]Regular expression to match text between <a ..> and </a>

是否有人能夠提供正則表達式以匹配HTML片段中<a> and </a>標記之間的鏈接文本。

示例數據: <a href="link.html">Link Title</a> - 15 comments <br/> <a href="otherlink.html">Some other Title</a> - 6 comments

要求:我只需要提取鏈接文本(即<a> and </a>之間的鏈接文本 - 鏈接標題其他標題 )以在我的應用程序中使用。

請注意,鏈接文本可能包含非英文字符和所有可能的截斷。 我試過用'。' 運算符,但由於它執行貪婪匹配,因此它匹配第一個<a>和最后一個</a>之間的整個文本。 但我只想要鏈接文本。

有幫助嗎?

嘗試

<a[^>]+>(.*?)</a>

這已經在StackOverflow上進行了數十次討論(在其他論壇上已有數千次),但顯然它仍然需要重復: 它無法完成

正則表達式只能解析常規語言。 HTML 不是常規語言。 證明你不能用正則表達式解析HTML是一個定期(雙關語)的家庭作業任務幾乎在這個星球上的每個學院和大學。 它已被成千上萬的人證實。 它與任何數學證明一樣可以防水。 這是一個非常簡短,非常簡單,非常平易近人的證據。 任何人都無法在其中找到隱藏的缺陷,因為證據是如此簡單和小巧,以至於明顯無處隱藏任何缺陷。

哦,我提到它不能做到嗎?

這不是旅行商問題,需要很長時間才能運行。 它不是P = NP,我們不知道它是否真實。

這是真的,絕對,100%,積極,完全,可證明是不可能的。

我忘了。 我是否已經提到它無法完成

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM