從 html 源代碼中刪除注釋

Question

我知道如何通過 cUrl 獲取 html 源代碼，但我想刪除 html 文檔上的注釋（我的意思是<.--.. -->之間的內容）。 另外，如果我可以只取 html 文件的BODY 。 謝謝你。

Answer 1

嘗試PHP DOM* ：

$html = '<html><body><!--a comment--><div>some content</div></body></html>'; // put your cURL result here

$dom = new DOMDocument;
$dom->loadHtml($html);

$xpath = new DOMXPath($dom);
foreach ($xpath->query('//comment()') as $comment) {
    $comment->parentNode->removeChild($comment);
}

$body = $xpath->query('//body')->item(0);
$newHtml = $body instanceof DOMNode ? $dom->saveXml($body) : 'something failed';

var_dump($newHtml);

Output ：

string(36) "<body><div>some content</div></body>"

Answer 2

如果在 cUrl 中沒有此選項（我懷疑沒有，但我之前錯了），那么您至少可以使用Z2FEC392304A5C23AC138DA2 解析生成的HTML到您心中的內容

從長遠來看，這可能是您在可配置性和支持方面的最佳選擇。

Answer 3

正則表達式為我解決了這個問題，如下所示：

function remove_html_comments($html = '') {
    return preg_replace('/<!--(.|\s)*?-->/', '', $html);
}

Answer 4

我遇到了在 foreach 循環中修改 DOMNodeList 的問題，該循環消失了，我向后迭代了 list 。 出於這個原因，我不會像接受的答案那樣推薦foreach循環。 而是使用這樣的for循環：

$dom = new DOMDocument();
$dom->loadHTML($html);
$xpath = new DOMXPath($dom);
for ($els = $xpath->query('//comment()'), $i = $els->length - 1; $i >= 0; $i--) {
    $els->item($i)->parentNode->removeChild($els->item($i));
}

Answer 5

我會 pipe 它到 sed 的正則表達式，類似

curl http://yoururl.com/test.html | sed -i "s/<!\-\-\s?\w+\s?\-\->//g" | sed "s/.?(<body>.?</body>).?/\1/"

正則表達式可能不准確，但你明白了......

Answer 6

在我的情況下這項工作：

preg_replace('/<!--[\s\S]*?-->/', '', $html);

從 html 源代碼中刪除注釋

問題描述

6 個解決方案

解決方案1
31 已采納 2011-06-10 11:35:49

解決方案2
1 2011-06-10 11:30:56

解決方案3
0 2018-08-21 11:48:11

解決方案4
0 2020-02-26 18:21:54

解決方案5
0 2011-06-10 11:32:02

解決方案6
0 2022-02-19 21:13:56

從 html 源代碼中刪除注釋

問題描述

6 個解決方案

解決方案1 31 已采納 2011-06-10 11:35:49

解決方案2 1 2011-06-10 11:30:56

解決方案3 0 2018-08-21 11:48:11

解決方案4 0 2020-02-26 18:21:54

解決方案5 0 2011-06-10 11:32:02

解決方案6 0 2022-02-19 21:13:56

解決方案1
31 已采納 2011-06-10 11:35:49

解決方案2
1 2011-06-10 11:30:56

解決方案3
0 2018-08-21 11:48:11

解決方案4
0 2020-02-26 18:21:54

解決方案5
0 2011-06-10 11:32:02

解決方案6
0 2022-02-19 21:13:56