如何从文本中剥离所有img标签，但包含特定单词的标签除外

Question

我想从某个文本中剥离所有img标签，但那些包含某个关键字的标签（例如，它们所托管的域）除外。

这是我想出的，但恐怕它不起作用：

 $text = preg_replace("/<img[^>]+(?!keyword)[^>]+\>/i", "", $text);

任何帮助将不胜感激！ :)

Answer 1

使用DOMDocument :: loadHTML吗？ 它在后台使用libxml，既快速又强大。

不要试图用正则表达式解析HTML。

我之所以大胆，是因为我在这里看到了很多东西，而解决方案总是充其量是脆弱的，最坏的时候是越野车。 一旦使用了真正的HTML解析器来获取所需的属性，则使用正则表达式更为合理。

[更新] -即使它来自Wordpress，也可以，因为它将字符串作为参数。

该函数解析字符串源中包含的HTML。 与加载XML不同，HTML不必格式正确即可加载。

如下所示的内容应该可以帮助您...

$doc = new DOMDocument();
$doc->loadHTML($var);
$images = $doc->getElementsByTagName('img');

Answer 2

使用回调来简化任务：

$html = preg_replace_callback('/<img\s[^>]+>/i', "cb_keyword", $html);

function cb_keyword($matches) {  // return empty str or original text
    return !strpos($matches[0], "keyword") ? "" : $matches[0];
}

如果您正在使用phpQuery / QueryPath处理HTML代码段，则仍然可以，但是会增加更多的后处理。

如何从文本中剥离所有img标签，但包含特定单词的标签除外

问题描述

2 个解决方案

解决方案1
5 2011-03-04 23:09:26

解决方案2
0 已采纳 2011-03-04 23:33:31

如何从文本中剥离所有img标签，但包含特定单词的标签除外

问题描述

2 个解决方案

解决方案1 5 2011-03-04 23:09:26

解决方案2 0 已采纳 2011-03-04 23:33:31

解决方案1
5 2011-03-04 23:09:26

解决方案2
0 已采纳 2011-03-04 23:33:31