繁体 English 中英

卷曲多重爬行问题

[英]curl multi crawling issues

原文 2012-01-16 10:16:15 8 1 php/ curl

我们拥有一个可满足每月约500,000位访客的爬行引擎。 到目前为止，我们使用curl来获取网页。 我们最近使用了带有curl的多执行程序来同时抓取页面。 我们将其设置为同时抓取20页。

现在，在获取网页的过程中，卷曲将完全停止，直到所有20个页面都已被提取，然后才移至下一个20个页面。这就像如果一页提取速度很慢，那么卷曲将等待该页面加载，直到它进入下一个循环，在该循环中我得到接下来的20页。

还有其他方法可以克服吗？ 希望我的问题清楚。

后来

通过克服，我的意思是图像卷曲只能同时获取20页。 所获取的内容立即被要获取的较新项目替换，而不必等待所有20个项目完成？ 明确？

当然，只需在完成后添加带有新URL的新句柄。 无需等待所有20个都先完成。 那简直就是低效。

当然，如果您愿意，也可以将20提升至200或600，或者其他任何方式...

有关多接口如何在C级别上工作的概述，请参见http://curl.haxx.se/libcurl/c/libcurl-multi.html 。 PHP / CURL API只是最薄的一层。

在PHP中， curl_multi_exec （）将返回一个“正在运行的句柄”的计数器，该计数器在完成一次或多次传输后会减少。 您还可以（并且应该）调用curl_multi_info_read （）来准确找出完成的传输及其返回码。

[英]PHP cURL multi handling causing random connection issues between servers?

[英]jquery address crawling - logic issues

[英]PHP CURL: Crawling multiples pages in a loop

[英]crawling with curl - just cant get it right

[英]PHP Multi curl or multi threading

[英]Issues Posting to Database with cURL

[英]issues with accessing URL with cURL

[英]cURL to PHP Translation Issues

[英]having some issues with curl

[英]PHP - cURL + strpos Issues

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 PHP cURL多处理导致服务器之间的随机连接问题？ jQuery地址爬网-逻辑问题 PHP CURL：循环检索多个页面卷曲爬行-不能正确解决 PHP多卷曲或多线程使用cURL向数据库发布问题用cURL访问URL的问题 cURL到PHP的翻译问题卷曲问题 PHP-cURL + strpos问题

相关标签