簡體   English   中英

如何下載和解析 web 頁面的一部分?

[英]How can i download and parse portion of web page?

我不想下載整個 web 頁面。 這需要時間,需要大量 memory。

我怎樣才能下載那個 web 頁面的一部分? 然后我會解析它。

假設我只需要下載<div id="entryPageContent" class="cssBaseOne">...</div> 我怎樣才能做到這一點?

您不能通過“僅此一段 HTML”來下載 URL 的一部分。 HTTP 只支持字節范圍的部分下載,沒有 HTML/XML 文檔樹的概念。

因此,您必須下載整個頁面,將其加載到DOM 解析器中,然后僅提取您需要的部分。

例如

$html = file_get_contents('http://example.com/somepage.html');
$dom = new DOM();
$dom->loadHTML($html);
$div = $dom->getElementById('entryPageContent');

$content = $div->saveHTML();

使用這個:

curl_setopt($ch, CURLOPT_RANGE, "0-10000");

將使 cURL 僅下載網頁的前 10k 字節。 此外,它僅在服務器端支持時才有效。 許多解釋腳本(CGI,PHP,...)忽略它。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM