繁体 English 中英

curl - 从网站上抓取大量内容

[英]curl - Scraping large amounts of content from a website

原文 2013-03-08 21:47:57 4 2 php/ curl

我很好奇是否有人对利用 PHP/CURL（甚至其他技术）从网站下载内容的最佳方法有任何建议。 现在我正在使用 curl_multi 一次执行 10 个请求，这对一些人有帮助。

我确实每天需要请求大约 10 万页，这可能会有点乏味（现在需要 16 小时）。 我最初的想法只是设置多个虚拟机并拆分任务，但想知道除了并行化之外我是否还缺少其他东西。 （我知道你总是可以在问题上扔更多的机器呵呵）

提前致谢！

2 个解决方案

这取决于您对内容的处理方式，但请尝试使用排队系统。

我建议Resque 。 它使用Redis来处理队列。 它旨在同时提高速度和多个请求。 它还有一个resque-web选项，可以提供一个很好的托管 UI。

您可以使用一台机器来排队新的 URL，然后您可以让一台或多台机器处理队列。

其他选项： Kestrel 、 RabbitMQ 、 Beanstalkd

要检索 Web 内容，您可以使用 curl 或 fsockopen。 两种方法之间的比较可以在 fsockopen 和 curl 之间哪个更好的方法中看到？ .

从第三方网站检索和刮取大量数据

[英]Retrieving and scraping large amounts of data from third party websites

PHP + cURL-使用REACT使用用户个人资料从网站中收集数据

[英]PHP + cURL - Scraping data from a website with user profile using REACT

使用curl来抓取大页面

[英]Using curl for scraping large pages

php curl从网站获取内容不起作用

[英]php curl fetch content from website is not working

PHP cURL网站抓取无效

[英]PHP cURL Website scraping not working

从其他网站抓取数据时，在 for 循环中汇总大量数据

[英]Sum large numbers in for loop while scraping data from other website

使用PHP + MySQL缓存大量内容

[英]Caching large amounts of content with PHP + MySQL

如何使用curl解析从网站接收的网站内容

[英]How to parse website content received from a website with curl

使用cURL请求抓取网站未读取HTML代码

[英]Scraping a website with cURL request not reading the HTML code

curl 抓取单个网站两层深

[英]curl scraping a single website two levels deep

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 从第三方网站检索和刮取大量数据 PHP + cURL-使用REACT使用用户个人资料从网站中收集数据使用curl来抓取大页面 php curl从网站获取内容不起作用 PHP cURL网站抓取无效从其他网站抓取数据时，在 for 循环中汇总大量数据使用PHP + MySQL缓存大量内容如何使用curl解析从网站接收的网站内容使用cURL请求抓取网站未读取HTML代码 curl 抓取单个网站两层深

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM