簡體   English   中英

卷曲多重爬行問題

[英]curl multi crawling issues

我們擁有一個可滿足每月約500,000位訪客的爬行引擎。 到目前為止,我們使用curl來獲取網頁。 我們最近使用了帶有curl的多執行程序來同時抓取頁面。 我們將其設置為同時抓取20頁。

現在,在獲取網頁的過程中,卷曲將完全停止,直到所有20個頁面都已被提取,然后才移至下一個20個頁面。這就像如果一頁提取速度很慢,那么卷曲將等待該頁面加載,直到它進入下一個循環,在該循環中我得到接下來的20頁。

還有其他方法可以克服嗎? 希望我的問題清楚。

后來

通過克服,我的意思是圖像卷曲只能同時獲取20頁。 所獲取的內容立即被要獲取的較新項目替換,而不必等待所有20個項目完成? 明確?

當然,只需在完成后添加帶有新URL的新句柄。 無需等待所有20個都先完成。 那簡直就是低效。

當然,如果您願意,也可以將20提升至200或600,或者其他任何方式...

有關多接口如何在C級別上工作的概述,請參見http://curl.haxx.se/libcurl/c/libcurl-multi.html PHP / CURL API只是最薄的一層。

在PHP中, curl_multi_exec ()將返回一個“正在運行的句柄”的計數器,該計數器在完成一次或多次傳輸后會減少。 您還可以(並且應該)調用curl_multi_info_read ()來准確找出完成的傳輸及其返回碼。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM