繁体   English   中英

卷曲多重爬行问题

[英]curl multi crawling issues

我们拥有一个可满足每月约500,000位访客的爬行引擎。 到目前为止,我们使用curl来获取网页。 我们最近使用了带有curl的多执行程序来同时抓取页面。 我们将其设置为同时抓取20页。

现在,在获取网页的过程中,卷曲将完全停止,直到所有20个页面都已被提取,然后才移至下一个20个页面。这就像如果一页提取速度很慢,那么卷曲将等待该页面加载,直到它进入下一个循环,在该循环中我得到接下来的20页。

还有其他方法可以克服吗? 希望我的问题清楚。

后来

通过克服,我的意思是图像卷曲只能同时获取20页。 所获取的内容立即被要获取的较新项目替换,而不必等待所有20个项目完成? 明确?

当然,只需在完成后添加带有新URL的新句柄。 无需等待所有20个都先完成。 那简直就是低效。

当然,如果您愿意,也可以将20提升至200或600,或者其他任何方式...

有关多接口如何在C级别上工作的概述,请参见http://curl.haxx.se/libcurl/c/libcurl-multi.html PHP / CURL API只是最薄的一层。

在PHP中, curl_multi_exec ()将返回一个“正在运行的句柄”的计数器,该计数器在完成一次或多次传输后会减少。 您还可以(并且应该)调用curl_multi_info_read ()来准确找出完成的传输及其返回码。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM