[英]Bulk download of web images
我有大约60万张图片网址(在列表中),我想实现以下目标:
我估计我的图像平均约为1mb,这大约是600gb的下载数据传输量。 我不相信我的笔记本电脑和互联网连接可以接受它。
我应该走哪条路? 我希望最好有一个使成本最小化的解决方案。
我在考虑Python脚本或JavaScript作业,如果可能,请并行运行以最大程度地减少所需的时间
谢谢!
我建议旋转一个或多个EC2实例并在其中运行缩略图作业。 您将消除几乎所有的带宽成本(从正确区域中的ec2实例到s3),并且肯定会在AWS网络中加快传输速度。
对于要处理的600K文件,您可能需要考虑将每个“作业”加载到SQS队列中,然后让多个EC2实例轮询队列以进行“工作”-这将允许您启动尽可能多的ec2实例您想并行运行并分发工作。
但是,设置队列的工作是否值得,取决于您需要执行此操作的频率以及完成的速度-即如果这是一次性的事情,您可以等待一周时间最后,只需插入一个实例即可。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.