繁体   English   中英

批量下载网络图像

[英]Bulk download of web images

我有大约60万张图片网址(在列表中),我想实现以下目标:

  • 全部下载
  • 生成特定尺寸的缩略图
  • 将它们上传到Amazon s3

我估计我的图像平均约为1mb,这大约是600gb的下载数据传输量。 我不相信我的笔记本电脑和互联网连接可以接受它。

我应该走哪条路? 我希望最好有一个使成本最小化的解决方案。

我在考虑Python脚本或JavaScript作业,如果可能,请并行运行以最大程度地减少所需的时间

谢谢!

我建议旋转一个或多个EC2实例并在其中运行缩略图作业。 您将消除几乎所有的带宽成本(从正确区域中的ec2实例到s3),并且肯定会在AWS网络中加快传输速度。

对于要处理的600K文件,您可能需要考虑将每个“作业”加载到SQS队列中,然后让多个EC2实例轮询队列以进行“工作”-这将允许您启动尽可能多的ec2实例您想并行运行并分发工作。

但是,设置队列的工作是否值得,取决于您需要执行此操作的频率以及完成的速度-即如果这是一次性的事情,您可以等待一周时间最后,只需插入一个实例即可。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM