正则表达式Lookbehind无法正常工作

Question

我在.net中有一个字符串。

<p class='p1'>Para 1</p><p>Para 2</p><p class="p2">Para 3</p><p>Para 4</p>

现在，我只想在标签p（第1款，第2款，第3款，第4款）中获取文本。

我使用了以下正则表达式，但没有得到预期的结果。

(?<=<p.*>).*?(?=</p>)

如果我使用(?<=).*?(?=) ，它将给出第2段和第4段，这两个p标签都没有类属性？

我想知道(?<=<p.*>).*?(?=)该代码出了什么问题。

Answer 1

让我们使用RegexBuddy进行说明：

RegexBuddy屏幕截图

您的正则表达式比您想象的更匹配-点匹配任何字符，因此它不在乎标记边界。

它实际上在做什么：

您的问题还不清楚，但是如果您打算在标记中查找文本，而不管它们是否包含任何属性，那么您不应该使用正则表达式，而应该使用DOM解析器，例如HTML agility pack 。

也就是说，如果您坚持使用正则表达式，请尝试

(?<=<p[^<>]*>)(?:(?!</p>).)*

另一个截图

说明：

(?<=<p[^<>]*>)  # Assert position right after a p tag
(?:(?!</p>).)*  # Match any number of characters until the next </p>

Answer 2

您是否尝试过使用以下表达式？

<p[\s\S]*?>(?<text_inside_p>[\s\S]*?)</p>

名为text_inside_p组将包含所需的文本。