在php中，如何使用正则表达式捕获两个模式之间的所有内容（以及每个模式的最短实例）？

Question

我一定太复杂了，但是我无法终生解决。

我有一个存储为字符串的标准html文档，我需要获取该段落的内容。 我将举例说明。

$stringHTML=
"<html>

<head>
<title>Title</title>
</head>

<body>

<p>This is the first paragraph</p>
<p>This is the second</p>
<p>This is the third</p>
<p>And fourth</p>

</body>
</html>";

如果我用

$regex='~(<p>)(.*)(</p>)~i';
preg_match_all($regex, $stringHTML, $newVariable);

我不会得到4个结果。 相反，我得到10，因此得到10，因为正则表达式与第一个和第一个以及第一个和第四个匹配

如何在两个单词之间搜索，并且仅返回每个段落之间的结果？

Answer 1

使用DOM或XPATH之类的HTML解析器来解析HTML。 不要使用Regex解析HTML 。 这是DOMDocument可以轻松解析的方法。

$doc = new \DOMDocument;
$doc->loadHTML($stringHTML);
$ps = $doc->getElementsByTagName("p");
for($i=0;$i<$ps->length; $i++){
    echo $ps->item($i)->textContent. "\n";
}

实际代码

使用此RegEx（正如您所说的regex实践 ），您将获得4个结果。

preg_match_all("#<p>(.*)</p>#", $stringHTML, $matches);
print_r($matches[1]);

这里使用环顾语法。 参见实际代码 。

Answer 2

使用.*? 获得最短的比赛，而不是最长的比赛。

Answer 3

您的正则表达式应为/(.*?)<\\/p>/i 。 它只会匹配之间的字符串，并将其放入数组中。

您不应该分组： ()

在php中，如何使用正则表达式捕获两个模式之间的所有内容（以及每个模式的最短实例）？

问题描述

3 个解决方案

解决方案1
1 2013-01-01 06:13:34

解决方案2
0 已采纳 2013-01-01 04:51:09

解决方案3
0 2013-01-01 05:59:57

在php中，如何使用正则表达式捕获两个模式之间的所有内容（以及每个模式的最短实例）？

问题描述

3 个解决方案

解决方案1 1 2013-01-01 06:13:34

解决方案2 0 已采纳 2013-01-01 04:51:09

解决方案3 0 2013-01-01 05:59:57

解决方案1
1 2013-01-01 06:13:34

解决方案2
0 已采纳 2013-01-01 04:51:09

解决方案3
0 2013-01-01 05:59:57