繁体   English   中英

使用 preg_match_all PHP 限制结果数量

[英]Limit the number of results using preg_match_all PHP

有什么方法可以限制使用preg_match_all返回的匹配项数量?

例如,我只想匹配网页上的前 20 个<p>标签,但有 100 个<p>标签。

干杯

不可以,不能限制preg_match_all结果集的计算。 之后您只能使用array_slicearray_splice限制结果(这将需要PREG_SET_ORDER ):

preg_match_all($pattern, $subject, $matches, PREG_SET_ORDER);
$firstMatches = array_slice($matches, 0, 20);

但除此之外,您无论如何都不应该使用正则表达式来解析 HTML。 虽然现代的正则表达式引擎不再是正则的,可以处理像 HTML 这样的不规则语言,但是太容易出错了。 最好使用合适的 HTML 解析器,而不是像PHP 的 DOM 库之一 然后只需使用计数器最多只能获得 20 个匹配项:

$doc = new DOMDocument();
$doc->loadHTML($code);
$counter = 20;
$matches = array();
foreach ($doc->getElementsByTagName('p') as $elem) {
    if ($counter-- <= 0) {
        break;
    }
    $matches[] = $elem;
}
$matches = array();   
preg_match_all ( $pattern , $subject , $matches );
$twenty = array_slice($matches , 0, 20);

只需匹配所有并切片结果数组:

$allMatches = array ();
$numMatches = preg_match_all($pattern, $subject, $allMatches, PREG_SET_ORDER);
$limit = 20;
$limitedResults = $allMatches;
if($numMatches > $limit)
{
   $limitedResults = array_slice($allMatches, 0, $limit);
}

// Use $limitedResults here

您可以使用T-Regx库:

pattern('<p>')->match($yourHtml)->only(20);

这才是真正的答案; 最节省内存的方式。
改为通过preg_replace_callback()使用引用分配

<?php

$matches = [];

preg_replace_callback(
    '~<p(?:\s.*?)?>(?:.*?)</p>~s',
    function (array $match) use (&$matches) {
        $matches[] = $match[0];
    },
    $html,
    20,
    $_
);

var_dump($matches);

为了扩展 @Gumbo 使用 DOM 解析器而不是正则表达式的伟大建议,以下代码段将使用带有position()条件的 XPath 查询来限制目标标签。

代码:(针对 5 个标签中的 4 个的演示

$html = <<<HTML
<div>
    <p class="classy">1
</p>
    <p>2</p>
    <p data-p="<p>notatag</p>">3</p>
    <span data-monkeywrench='<p'>z</span>
    <p
 data-p="<p>notatag</p>">4</p>
    <p>5</p>
</div>
HTML;

$dom = new DOMDocument();
$dom->loadHTML($html, LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD);
$xpath = new DOMXPath($dom);
foreach ($xpath->query('//p[position() <= 4]') as $p) {
    echo var_export($p->nodeValue, true) , "\n---\n";
}

输出:

'1
'
---
'2'
---
'3'
---
'4'
---

我不这么认为,但preg_match确实有一个offset参数,还有一个PREG_OFFSET_CAPTURE标志,当组合时,可以用来获得“下一场比赛”。

如果您不想获得所有结果,然后将array_slice()去掉一部分,这将非常有用:o)

编辑:好的,这是一些代码(未经测试或以任何方式使用):

$offset = 0;
$matches = array();
for ($i = 0; $i < 20; $i++) {
    $results = preg_match('/<p(?:.*?)>/', $string, PREG_OFFSET_CAPTURE, $offset);
    if (empty($results)) {
        break;
    } else {
        $matches[] = $results[0][0];
        $offset += $results[0][1];
    }
}

您可以使用preg_match_all()并丢弃您不感兴趣的匹配项,或者您可以使用带有preg_match()的循环。 如果您担心扫描大字符串的费用,则第二个选项会更好。

此示例限制为 2 个匹配项,而整个字符串中实际上有 3 个匹配项:

<?php

$str = "ab1ab2ab3ab4c";

for ($offset = 0, $n = 0;
        $n < 2 && preg_match('/b([0-9])/', $str, $matches, PREG_OFFSET_CAPTURE, $offset);
        ++$n, $offset = $matches[0][1] + 1) {

        var_dump($matches);
}

真的, while循环可能比反射时的for循环更清晰;)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM