php正則表達式，如果不在HTML標記中，則匹配字符串

Question

我正在嘗試解決Drupal的Hashtags模塊中的此錯誤： http ://drupal.org/node/1718154

我有此功能，可匹配文本中以“＃”為前綴的每個單詞，例如#tag：

function hashtags_get_tags($text) {
    $tags_list = array();
    $pattern = "/#[0-9A-Za-z_]+/";
    preg_match_all($pattern, $text, $tags_list);
    $result = implode(',', $tags_list[0]);
    return $result;
    }

我需要忽略頁面中的內部鏈接，例如<a href="#reference">link</a> ，或者更一般而言，忽略 HTML標記中出現的帶有＃前綴的任何單詞（因此以<和開頭通過>）。

知道我該如何實現嗎？

Answer 1

是否可以因為匹配而首先剝離標簽（使用strip_tags函數）？

function hashtags_get_tags($text) {

    $text = strip_tags($text);

    $tags_list = array();
    $pattern = "/#[0-9A-Za-z_]+/";
    preg_match_all($pattern, $text, $tags_list);
    $result = implode(',', $tags_list[0]);
    return $result;
}

如果您只想匹配不在 HTML標記內的主題標記，則正則表達式將非常棘手。

Answer 2

您可以使用preg_replace事先丟棄標簽

function hashtags_get_tags($text) {
$tags_list = array();
$pattern = "/#[0-9A-Za-z_]+/";
$text=preg_replace("/<[^>]*>/","",$text);
preg_match_all($pattern, $text, $tags_list);
$result = implode(',', $tags_list[0]);
return $result;
}

Answer 3

我使用PHP DOM進行了此功能。

它返回所有在href中帶有#鏈接。

如果希望它僅刪除內部哈希標簽，請替換此行：

if(strpos($link->getAttribute('href'), '#') === false) {

有了這個：

if(strpos($link->getAttribute('href'), '#') !== 0) {

這是功能：

function no_hashtags($text) {
    $doc = new DOMDocument();
    $doc->loadHTML($text);
    $links = $doc->getElementsByTagName('a');
    $nohashes = array();
    foreach($links as $link) {
        if(strpos($link->getAttribute('href'), '#') === false) {
            $temp = new DOMDocument();
            $elem = $temp->importNode($link->cloneNode(true), true);
            $temp->appendChild($elem);
            $nohashes[] = $temp->saveHTML();
        }
    }
    // return $nohashes;
    return implode('', $nohashes);
    // return implode(',', $nohashes);
}

php正則表達式，如果不在HTML標記中，則匹配字符串

問題描述

3 個解決方案

解決方案1
1 2012-08-08 02:41:23

解決方案2
0 2012-08-08 02:50:53

解決方案3
0 2012-08-08 04:42:55

php正則表達式，如果不在HTML標記中，則匹配字符串

問題描述

3 個解決方案

解決方案1 1 2012-08-08 02:41:23

解決方案2 0 2012-08-08 02:50:53

解決方案3 0 2012-08-08 04:42:55

解決方案1
1 2012-08-08 02:41:23

解決方案2
0 2012-08-08 02:50:53

解決方案3
0 2012-08-08 04:42:55