正则表达式忽略链接文本

Question

我有以下代码：

<p>&nbsp;<img src="spas01.jpg" alt="" width="630" height="480"></p>
<p style="text-align: right;"><a href="spas.html">Spas</a></p>
<p>My Site Content [...]</p>

我需要一个正则表达式以仅获取“我的网站内容[...]”。 因此，我需要忽略第一张图片（也许还有其他图片）和链接。

Answer 1

尝试这个：
使用(?<=<p>)([^><]+)(?=</p>)或<p>\\K([^><]+)(?=</p>)

更新资料

   $re = "@<p>\\K([^><]+)(?=</p>)@m"; 
$str = "<p>&nbsp;<img src=\"spas01.jpg\" alt=\"\" width=\"630\" height=\"480\"></p>\n<p style=\"text-align: right;\"><a href=\"spas.html\">Spas</a></p>\n<p>My Site Content [...]</p>"; 

preg_match_all($re, $str, $matches);

演示版

Answer 2

使用DOMDocument和DOMXPath：

$html = <<<'EOD'
<p>&nbsp;<img src="spas01.jpg" alt="" width="630" height="480"></p>
<p style="text-align: right;"><a href="spas.html">Spas</a></p>
<p>My Site Content [...]</p>
EOD;

$dom = new DOMDocument;
$dom->loadHTML($html);

$xp = new DOMXPath($dom);
$query = '//p//text()[not(ancestor::a)]';

$textNodes = $xp->query($query);

foreach ($textNodes as $textNode) {
    echo $textNode->nodeValue . PHP_EOL;
}

正则表达式忽略链接文本

问题描述

2 个解决方案

解决方案1
1 2015-08-25 13:34:04

解决方案2
0 2015-08-25 13:39:31

正则表达式忽略链接文本

问题描述

2 个解决方案

解决方案1 1 2015-08-25 13:34:04

解决方案2 0 2015-08-25 13:39:31

解决方案1
1 2015-08-25 13:34:04

解决方案2
0 2015-08-25 13:39:31