繁体   English   中英

PHP中的XPath删除HTML标记

[英]XPath in PHP Removes HTML Tags

我在PHP中使用XPath来检索HTML文档的一部分。 假设我的HTML文档看起来像这样:

<html>
    <head>
    </head>
    <body>
        <div id="first">
            <a href="some_link_address.com">Hello</a>
            <p>Some text here</p>
        </div>
        <div id="second">
            <p>Some other text here</p>
            <img src="src/to/image.jpg" />
        </div>
    </body>
</html>

我的PHP包括XPath调用是:

$result_dom = new DOMDocument('1.0', 'utf-8');
$node_to_keep = $xpath->query("//div[@id='first']");

foreach ($nodes_to_keep as $node) {

    $element = $result_dom->createElement('div', $node->nodeValue;);
    $result_dom ->appendChild($element);
}

我期待得到的dom将包含以下内容

<div>
    <a href="some_link_address.com">Hello</a>
    <p>Some text here</p>
</div>

然而,这是由此产生的dom

<div>
    Hello
    Some text here
</div>

所以我的问题是,如何设置生成的dom以包含html标签。 我不希望他们被删除

谢谢。

元素的“nodeValue”是该元素的文本内容。 文档中的文本节点不包括<a ...>等,只包括这些元素内部和之间的文本。 所以,这就是你在新元素中得到的全部内容。

不是手动创建节点,而是导入结果节点的深层副本并附加:

$importedNode = $result_dom->importNode($node, true);
$result_dom->appendChild($importedNode);

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM