繁体   English   中英

大量页面刮刮麻烦

[英]Large amount of pages scraping trouble

我正在尝试从两级网站获取数据。 一级包含到第二级的数千个链接。 我发现只有在一次只抓取一个顶层页面时,它才起作用。 当我尝试一次刮擦更多它们时,运行约40分钟后,我收到一条错误消息。 我尝试了file_get_contents ()curl_exec ()函数,但是它们都不能够处理任务。 后来的方法曾经甚至无法完成一项任务。 似乎该脚本导致了内存溢出。 有没有更好的方法来完成这项工作?

500 Internal server error(500内部服务器错误)表示这是服务器问题,而不是客户端问题。 甚至完全可以防止这种抓取是故意的反机器人服务器策略,尽管它可以在40分钟内正常工作的事实使它看起来很可能只是管理不善的服务器上的服务器容量问题。 在这种情况下,降低请求速率将是解决方案。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM