繁体   English   中英

curl - 从网站上抓取大量内容

[英]curl - Scraping large amounts of content from a website

我很好奇是否有人对利用 PHP/CURL(甚至其他技术)从网站下载内容的最佳方法有任何建议。 现在我正在使用 curl_multi 一次执行 10 个请求,这对一些人有帮助。

我确实每天需要请求大约 10 万页,这可能会有点乏味(现在需要 16 小时)。 我最初的想法只是设置多个虚拟机并拆分任务,但想知道除了并行化之外我是否还缺少其他东西。 (我知道你总是可以在问题上扔更多的机器呵呵)

提前致谢!

这取决于您对内容的处理方式,但请尝试使用排队系统。

我建议Resque 它使用Redis来处理队列。 它旨在同时提高速度和多个请求。 它还有一个resque-web选项,可以提供一个很好的托管 UI。

您可以使用一台机器来排队新的 URL,然后您可以让一台或多台机器处理队列。

其他选项: KestrelRabbitMQBeanstalkd

要检索 Web 内容,您可以使用 curl 或 fsockopen。 两种方法之间的比较可以在 fsockopen 和 curl 之间哪个更好的方法中看到 .

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM