[英]How can i download and parse portion of web page?
我不想下載整個 web 頁面。 這需要時間,需要大量 memory。
我怎樣才能下載那個 web 頁面的一部分? 然后我會解析它。
假設我只需要下載<div id="entryPageContent" class="cssBaseOne">...</div>
。 我怎樣才能做到這一點?
您不能通過“僅此一段 HTML”來下載 URL 的一部分。 HTTP 只支持字節范圍的部分下載,沒有 HTML/XML 文檔樹的概念。
因此,您必須下載整個頁面,將其加載到DOM 解析器中,然后僅提取您需要的部分。
例如
$html = file_get_contents('http://example.com/somepage.html');
$dom = new DOM();
$dom->loadHTML($html);
$div = $dom->getElementById('entryPageContent');
$content = $div->saveHTML();
使用這個:
curl_setopt($ch, CURLOPT_RANGE, "0-10000");
將使 cURL 僅下載網頁的前 10k 字節。 此外,它僅在服務器端支持時才有效。 許多解釋腳本(CGI,PHP,...)忽略它。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.