如何在没有javascript代码的情况下获取正文内容

Question

要获取body标签中的内容，我使用下面的代码。

$html = @file_get_contents($url);
$doc = new DOMDocument();
@$doc->loadHTML($html);
$nodes = $doc->getElementsByTagName('body');
$body = $nodes->item(0)->nodeValue;

如何从$ body中删除js代码？ 任何看起来像js的代码

<script> /*Some js code*/ </script>

Answer 1

尝试这个：

$html = preg_replace("/<script.*?\/script>/s", "", $html);

在做正则表达式时，事情可能会出错，所以这样做更安全：

$html = preg_replace("/<script.*?\/script>/s", "", $html) ? : $html;

因此，当“意外”发生时，我们得到原始的$html而不是空字符串。

Answer 2

如果您已经在使用DOMDocument那么为什么不删除那些节点？！

$dom = new DOMDocument;
$dom->preserveWhiteSpace = false;
@$dom->loadHTMLFile("from_link_to.html");
$scripts = $dom->getElementsByTagName('script');
foreach ($scripts as $script) {
    $scripts->removeChild($script);
}
...

仔细看看DOMDocument类，以及regular expression对于此类任务的噩梦。

Answer 3

这里的解决方案解决了我的问题。 下面的代码完全从body标签中删除脚本标记及其内容：

$doc = new DOMDocument();
    $doc->preserveWhiteSpace = false;
    @$doc->loadHTML($html);
    $script = $doc->getElementsByTagName('script');

    $remove = [];
    foreach ($script as $item) {
        $remove[] = $item;
    }

    foreach ($remove as $item) {
        $item->parentNode->removeChild($item);
    }

    $node = $doc->getElementsByTagName('body');
    $body = $node->item(0)->nodeValue;

    echo $body;

如何在没有javascript代码的情况下获取正文内容

问题描述

3 个解决方案

解决方案1
2 2015-12-30 10:53:40

解决方案2
1 2015-12-30 11:13:43

解决方案3
0 已采纳 2015-12-30 13:36:54

如何在没有javascript代码的情况下获取正文内容

问题描述

3 个解决方案

解决方案1 2 2015-12-30 10:53:40

解决方案2 1 2015-12-30 11:13:43

解决方案3 0 已采纳 2015-12-30 13:36:54

解决方案1
2 2015-12-30 10:53:40

解决方案2
1 2015-12-30 11:13:43

解决方案3
0 已采纳 2015-12-30 13:36:54