使用 preg_match_all PHP 限制結果數量

Question

有什么方法可以限制使用preg_match_all返回的匹配項數量？

例如，我只想匹配網頁上的前 20 個<p>標簽，但有 100 個<p>標簽。

干杯

Answer 1

不可以，不能限制preg_match_all結果集的計算。 之后您只能使用array_slice或array_splice限制結果（這將需要PREG_SET_ORDER ）：

preg_match_all($pattern, $subject, $matches, PREG_SET_ORDER);
$firstMatches = array_slice($matches, 0, 20);

但除此之外，您無論如何都不應該使用正則表達式來解析 HTML。 雖然現代的正則表達式引擎不再是正則的，可以處理像 HTML 這樣的不規則語言，但是太容易出錯了。 最好使用合適的 HTML 解析器，而不是像PHP 的 DOM 庫之一。 然后只需使用計數器最多只能獲得 20 個匹配項：

$doc = new DOMDocument();
$doc->loadHTML($code);
$counter = 20;
$matches = array();
foreach ($doc->getElementsByTagName('p') as $elem) {
    if ($counter-- <= 0) {
        break;
    }
    $matches[] = $elem;
}

Answer 2

$matches = array();   
preg_match_all ( $pattern , $subject , $matches );
$twenty = array_slice($matches , 0, 20);

Answer 3

只需匹配所有並切片結果數組：

$allMatches = array ();
$numMatches = preg_match_all($pattern, $subject, $allMatches, PREG_SET_ORDER);
$limit = 20;
$limitedResults = $allMatches;
if($numMatches > $limit)
{
   $limitedResults = array_slice($allMatches, 0, $limit);
}

// Use $limitedResults here

Answer 4

您可以使用T-Regx庫：

pattern('<p>')->match($yourHtml)->only(20);

Answer 5

這才是真正的答案； 最節省內存的方式。
改為通過preg_replace_callback()使用引用分配。

<?php

$matches = [];

preg_replace_callback(
    '~<p(?:\s.*?)?>(?:.*?)</p>~s',
    function (array $match) use (&$matches) {
        $matches[] = $match[0];
    },
    $html,
    20,
    $_
);

var_dump($matches);

Answer 6

為了擴展 @Gumbo 使用 DOM 解析器而不是正則表達式的偉大建議，以下代碼段將使用帶有position()條件的 XPath 查詢來限制目標標簽。

代碼：（針對 5 個標簽中的 4 個的演示）

$html = <<<HTML
<div>
    <p class="classy">1
</p>
    <p>2</p>
    <p data-p="<p>notatag</p>">3</p>
    <span data-monkeywrench='<p'>z</span>
    <p
 data-p="<p>notatag</p>">4</p>
    <p>5</p>
</div>
HTML;

$dom = new DOMDocument();
$dom->loadHTML($html, LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD);
$xpath = new DOMXPath($dom);
foreach ($xpath->query('//p[position() <= 4]') as $p) {
    echo var_export($p->nodeValue, true) , "\n---\n";
}

輸出：

'1
'
---
'2'
---
'3'
---
'4'
---

Answer 7

我不這么認為，但preg_match確實有一個offset參數，還有一個PREG_OFFSET_CAPTURE標志，當組合時，可以用來獲得“下一場比賽”。

如果您不想獲得所有結果，然后將array_slice()去掉一部分，這將非常有用:o)

編輯：好的，這是一些代碼（未經測試或以任何方式使用）：

$offset = 0;
$matches = array();
for ($i = 0; $i < 20; $i++) {
    $results = preg_match('/<p(?:.*?)>/', $string, PREG_OFFSET_CAPTURE, $offset);
    if (empty($results)) {
        break;
    } else {
        $matches[] = $results[0][0];
        $offset += $results[0][1];
    }
}

Answer 8

您可以使用preg_match_all()並丟棄您不感興趣的匹配項，或者您可以使用帶有preg_match()的循環。 如果您擔心掃描大字符串的費用，則第二個選項會更好。

此示例限制為 2 個匹配項，而整個字符串中實際上有 3 個匹配項：

<?php

$str = "ab1ab2ab3ab4c";

for ($offset = 0, $n = 0;
        $n < 2 && preg_match('/b([0-9])/', $str, $matches, PREG_OFFSET_CAPTURE, $offset);
        ++$n, $offset = $matches[0][1] + 1) {

        var_dump($matches);
}

真的， while循環可能比反射時的for循環更清晰；)

使用 preg_match_all PHP 限制結果數量

問題描述

8 個解決方案

解決方案1
3 2010-12-17 11:05:58

解決方案2
3 2010-12-17 11:06:14

解決方案3
3 2010-12-17 11:06:47

解決方案4
1 2018-10-02 14:44:19

解決方案5
1 2020-05-23 16:24:09

解決方案6
1 2020-05-23 21:40:10

解決方案7
0 2010-12-17 11:07:43

解決方案8
0 2010-12-17 11:13:13

使用 preg_match_all PHP 限制結果數量

問題描述

8 個解決方案

解決方案1 3 2010-12-17 11:05:58

解決方案2 3 2010-12-17 11:06:14

解決方案3 3 2010-12-17 11:06:47

解決方案4 1 2018-10-02 14:44:19

解決方案5 1 2020-05-23 16:24:09

解決方案6 1 2020-05-23 21:40:10

解決方案7 0 2010-12-17 11:07:43

解決方案8 0 2010-12-17 11:13:13

解決方案1
3 2010-12-17 11:05:58

解決方案2
3 2010-12-17 11:06:14

解決方案3
3 2010-12-17 11:06:47

解決方案4
1 2018-10-02 14:44:19

解決方案5
1 2020-05-23 16:24:09

解決方案6
1 2020-05-23 21:40:10

解決方案7
0 2010-12-17 11:07:43

解決方案8
0 2010-12-17 11:13:13