[英]Regular expression to match text between <a ..> and </a>
是否有人能夠提供正則表達式以匹配HTML片段中<a> and </a>
標記之間的鏈接文本。
示例數據: <a href="link.html">Link Title</a> - 15 comments <br/> <a href="otherlink.html">Some other Title</a> - 6 comments
要求:我只需要提取鏈接文本(即<a> and </a>
之間的鏈接文本 - 鏈接標題和其他標題 )以在我的應用程序中使用。
請注意,鏈接文本可能包含非英文字符和所有可能的截斷。 我試過用'。' 運算符,但由於它執行貪婪匹配,因此它匹配第一個<a>
和最后一個</a>
之間的整個文本。 但我只想要鏈接文本。
有幫助嗎?
嘗試
<a[^>]+>(.*?)</a>
這已經在StackOverflow上進行了數十次討論(在其他論壇上已有數千次),但顯然它仍然需要重復: 它無法完成 。
正則表達式只能解析常規語言。 HTML 不是常規語言。 證明你不能用正則表達式解析HTML是一個定期(雙關語)的家庭作業任務幾乎在這個星球上的每個學院和大學。 它已被成千上萬的人證實。 它與任何數學證明一樣可以防水。 這是一個非常簡短,非常簡單,非常平易近人的證據。 任何人都無法在其中找到隱藏的缺陷,因為證據是如此簡單和小巧,以至於明顯無處可隱藏任何缺陷。
哦,我提到它不能做到嗎?
這不是旅行商問題,需要很長時間才能運行。 它不是P = NP,我們不知道它是否真實。
這是真的,絕對,100%,積極,完全,可證明是不可能的。
我忘了。 我是否已經提到它無法完成 ?
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.