繁体 English 中英

大量页面刮刮麻烦

[英]Large amount of pages scraping trouble

原文 2011-11-03 00:31:33 8 1 php/ curl/ web-scraping/ file-get-contents

我正在尝试从两级网站获取数据。 一级包含到第二级的数千个链接。 我发现只有在一次只抓取一个顶层页面时，它才起作用。 当我尝试一次刮擦更多它们时，运行约40分钟后，我收到一条错误消息。 我尝试了file_get_contents ()和curl_exec ()函数，但是它们都不能够处理任务。 后来的方法曾经甚至无法完成一项任务。 似乎该脚本导致了内存溢出。 有没有更好的方法来完成这项工作？

1 个解决方案

500 Internal server error（500内部服务器错误）表示这是服务器问题，而不是客户端问题。 甚至完全可以防止这种抓取是故意的反机器人服务器策略，尽管它可以在40分钟内正常工作的事实使它看起来很可能只是管理不善的服务器上的服务器容量问题。 在这种情况下，降低请求速率将是解决方案。

使用curl来抓取大页面

[英]Using curl for scraping large pages

PHP Dom抓取大量数据

[英]PHP Dom Scraping large amount of data

[英]Trouble with scraping

导航到不同页面时存储大量数据（> 5MB）

[英]Store a large amount of data (> 5MB) while navigating to different pages

有什么方法可以在网站上显示大量外部rss feed，而无需实际重新刮擦它们？

[英]Any way to display a large amount of external rss feeds on a site, without physically re-scraping them?

在PHP中抓取数据时遇到问题

[英]Trouble with scraping data in PHP

用DOMXPath刮刮表

[英]Trouble scraping table with DOMXPath

生成大量图像，然后从PHP网站合并为PDF（1,000至10,000页）

[英]Generate a large amount of images then merge into a PDF (1,000 to 10,000 pages) from PHP site

用Goutte抓取Facebook页面

[英]Scraping Facebook pages with Goutte

抓取数千个网页

[英]Scraping thousands of web pages

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 使用curl来抓取大页面 PHP Dom抓取大量数据刮刮麻烦导航到不同页面时存储大量数据（> 5MB）有什么方法可以在网站上显示大量外部rss feed，而无需实际重新刮擦它们？在PHP中抓取数据时遇到问题用DOMXPath刮刮表生成大量图像，然后从PHP网站合并为PDF（1,000至10,000页）用Goutte抓取Facebook页面抓取数千个网页

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM