如何下載和解析 web 頁面的一部分？

Question

我不想下載整個 web 頁面。 這需要時間，需要大量 memory。

我怎樣才能下載那個 web 頁面的一部分？ 然后我會解析它。

假設我只需要下載<div id="entryPageContent" class="cssBaseOne">...</div> 。 我怎樣才能做到這一點？

Answer 1

您不能通過“僅此一段 HTML”來下載 URL 的一部分。 HTTP 只支持字節范圍的部分下載，沒有 HTML/XML 文檔樹的概念。

因此，您必須下載整個頁面，將其加載到DOM 解析器中，然后僅提取您需要的部分。

例如

$html = file_get_contents('http://example.com/somepage.html');
$dom = new DOM();
$dom->loadHTML($html);
$div = $dom->getElementById('entryPageContent');

$content = $div->saveHTML();

Answer 2

使用這個：

curl_setopt($ch, CURLOPT_RANGE, "0-10000");

將使 cURL 僅下載網頁的前 10k 字節。 此外，它僅在服務器端支持時才有效。 許多解釋腳本（CGI，PHP，...）忽略它。

如何下載和解析 web 頁面的一部分？

問題描述

2 個解決方案

解決方案1
5 已采納 2012-04-10 16:27:27

解決方案2
0 2012-04-10 16:27:19

如何下載和解析 web 頁面的一部分？

問題描述

2 個解決方案

解決方案1 5 已采納 2012-04-10 16:27:27

解決方案2 0 2012-04-10 16:27:19

解決方案1
5 已采納 2012-04-10 16:27:27

解決方案2
0 2012-04-10 16:27:19