php regex獲取href標記內的字符串

Question

我需要一個正則表達式，可以在href標簽和引號內為我提供字符串。

例如，我需要在以下位置提取theurltoget.com：

<a href="theurltoget.com">URL</a>

另外，我只想要基本網址部分。 即來自http://www.mydomain.com/page.html我只希望http://www.mydomain.com/

Answer 1

不要為此使用正則表達式。 您可以使用xpath和內置的php函數來獲取所需的內容：

    $xml = simplexml_load_string($myHtml);
    $list = $xml->xpath("//@href");

    $preparedUrls = array();
    foreach($list as $item) {
        $item = parse_url($item);
        $preparedUrls[] = $item['scheme'] . '://' .  $item['host'] . '/';
    }
    print_r($preparedUrls);

Answer 2

$html = '<a href="http://www.mydomain.com/page.html">URL</a>';

$url = preg_match('/<a href="(.+)">/', $html, $match);

$info = parse_url($match[1]);

echo $info['scheme'].'://'.$info['host']; // http://www.mydomain.com

Answer 3

此表達式將處理3個選項：

無引號
雙引號
單引號

'/ href = [“ \\']？（[^^ \\'>] +）[” \\']？/'

Answer 4

如果您只在尋找基本網址部分 （@David問題的第二部分），請使用@Alec的答案！

$html = '<a href="http://www.mydomain.com/page.html" class="myclass" rel="myrel">URL</a>';
$url = preg_match('/<a href="(.+)">/', $html, $match);
$info = parse_url($match[1]);

這將為您提供：

$info
Array
(
    [scheme] => http
    [host] => www.mydomain.com
    [path] => /page.html" class="myclass" rel="myrel
)

因此，您可以使用$href = $info["scheme"] . "://" . $info["host"] $href = $info["scheme"] . "://" . $info["host"] $href = $info["scheme"] . "://" . $info["host"]可為您提供：

// http://www.mydomain.com

當您在href之間查找整個URL時 ，您應該使用另一個正則表達式，例如@ user2520237提供的正則表達式。

$html = '<a href="http://www.mydomain.com/page.html" class="myclass" rel="myrel">URL</a>';
$url = preg_match('/href=["\']?([^"\'>]+)["\']?/', $html, $match);
$info = parse_url($match[1]);

這將為您提供：

$info
Array
(
    [scheme] => http
    [host] => www.mydomain.com
    [path] => /page.html
)

現在，您可以使用$href = $info["scheme"] . "://" . $info["host"] . $info["path"]; $href = $info["scheme"] . "://" . $info["host"] . $info["path"]; 這給你：

// http://www.mydomain.com/page.html

Answer 5

http://www.the-art-of-web.com/php/parse-links/

讓我們從最簡單的情況開始-格式正確的鏈接，沒有額外的屬性：

/<a href=\"([^\"]*)\">(.*)<\/a>/iU

Answer 6

對於所有href值替換：

function replaceHref($html, $replaceStr)
{
    $match = array();
    $url   = preg_match_all('/<a [^>]*href="(.+)"/', $html, $match);

    if(count($match))
    {
        for($j=0; $j<count($match); $j++)
        {
            $html = str_replace($match[1][$j], $replaceStr.urlencode($match[1][$j]), $html);
        }
    }
    return $html;
}
$replaceStr  = "http://affilate.domain.com?cam=1&url=";
$replaceHtml = replaceHref($html, $replaceStr);

echo $replaceHtml;

Answer 7

這將處理URL周圍沒有引號的情況。

/<a [^>]*href="?([^">]+)"?>/

但是請注意，不要使用regex解析HTML 。 使用DOM或適當的解析庫。

Answer 8

因為正向和負向落后很酷

/(?<=href=\").+(?=\")/

它只會匹配您想要的內容，不帶引號

數組（[0] => theurltoget.com）

Answer 9

/href="(https?://[^/]*)/

我認為您應該能夠處理其余的工作。

php regex獲取href標記內的字符串

問題描述

9 個解決方案

解決方案1
17 2010-10-22 23:04:30

解決方案2
12 2010-10-22 22:17:15

解決方案3
6 2013-08-02 14:55:24

解決方案4
5 2013-08-14 07:54:49

解決方案5
4 2010-10-22 22:15:16

解決方案6
3 2012-08-10 05:33:54

解決方案7
0 2010-10-22 22:14:35

解決方案8
-1 2014-05-12 03:59:53

解決方案9
-1 2010-10-22 22:12:43

php regex獲取href標記內的字符串

問題描述

9 個解決方案

解決方案1 17 2010-10-22 23:04:30

解決方案2 12 2010-10-22 22:17:15

解決方案3 6 2013-08-02 14:55:24

解決方案4 5 2013-08-14 07:54:49

解決方案5 4 2010-10-22 22:15:16

解決方案6 3 2012-08-10 05:33:54

解決方案7 0 2010-10-22 22:14:35

解決方案8 -1 2014-05-12 03:59:53

解決方案9 -1 2010-10-22 22:12:43

解決方案1
17 2010-10-22 23:04:30

解決方案2
12 2010-10-22 22:17:15

解決方案3
6 2013-08-02 14:55:24

解決方案4
5 2013-08-14 07:54:49

解決方案5
4 2010-10-22 22:15:16

解決方案6
3 2012-08-10 05:33:54

解決方案7
0 2010-10-22 22:14:35

解決方案8
-1 2014-05-12 03:59:53

解決方案9
-1 2010-10-22 22:12:43