對抓取HTML標簽正則表達式模式感到困惑

Question

我正在閱讀regular-expressions.info示例，以嘗試了解更多正則表達式模式。

第一個示例Grabbing HTML Tags討論了用於特定HTML標簽的開始和結束對的正則表達式。

<TAG\b[^>]*>(.*?)</TAG>

我在這里有點困惑。 為什么將\\b[^>]*添加到上述正則表達式模式中，而通過使用以下正則表達式模式可以實現相同的目的：

<TAG>(.*?)</TAG>

為什么要使用這種額外的正則表達式模式？ 它對性能有幫助嗎？

Answer 1

這是為了匹配<a href=...> stuff </a>類的<a href=...> stuff </a> ，而不是簡單的<b> stuff </b> ，在該地方您的選項將起作用。
為了避免匹配<attribute ...> stuff </a>類的東西，需要\\b邊界
惰性量詞.*? 與[^<]*相反，需要在開始和結束標簽之間插入，因為在開始和結束標簽之間您可能會有另一個標簽（例如<b> ）

Answer 2

因為沒有單詞邊界，它不僅匹配標簽，而且匹配所有內容。

DEMO

您可以嘗試演示。 只需在模式中使用\\b 。

<TAG\b[^>]*>(.*?)</TAG>

說明：

例如：

輸入：

<a href="www.foo.com">link</a>
<ahref="www.foo.com">link</a>

正則表達式：

<a[^>]*>(.*?)<\/a>

上面的正則表達式將匹配兩個鏈接。

正則表達式：

<a\b[^>]*>(.*?)<\/a>

但這將與第一個匹配，因為a和第一個space字符之間存在單詞邊界。

Answer 3

一些開始標簽具有諸如<img src="asdf.png">類的屬性。 直到到達> ，標簽才結束，因此單詞src="asdf.png"和non- >字符匹配src="asdf.png" 。

Answer 4

\\b[^>]*

<TAG\b[^>]*>(.*?)</TAG>

正則表達式可視化

允許在開放標記中包含文本（例如參數： width="30" ）和空格（只要它只是一個TAG而不是TAGX或其他某種類型-這就是\\b 字邊界）。 html中的語法和間距非常松散。 允許額外的參數和空格始終是安全的，因為單個html標簽可以跨越多行。

后者正則表達式

<TAG>(.*?)</TAG>

正則表達式可視化

僅允許開始標簽精確地是 <TAG>然后是“可能跨越多行的某些文本”，然后是</TAG> 。

? 在.*? 是不情願，意味着下一個收盤</TAG>是唯一可以匹配的收盤</TAG> 。 消除? 將其更改為greedy ，這意味着匹配搜索字符串中的最后一個</TAG> 。