繁体   English   中英

使用AWS处理大量图像

[英]Process lots of images using AWS

我在S3中存储了很多100K +的图像,并且我有一些使用pySpark进行处理的代码。 我正在使用Anaconda Python,因此已经正确安装了大量库,正在使用库scipyPIL进行图像处理。

我正计划使用EMR,但以下是我的选择:

  1. 我如何正确地在群集上安装所有库而不会造成太多麻烦:

对于Python应用程序,只需将.py文件代替JAR传递,然后使用--py-files将Python .zip,.egg或.py文件添加到搜索路径。 -[火花文件]

  1. 他们还支持自定义引导程序,以在配置群集时安装软件。 但是,事实证明,Anaconda的linux安装并不像'yum install -y'那样容易。 安装涉及:

    • 下载anacondaxxx.sh
    • bash anacondaxxx.sh
    • 交互式#answer 4或5个问题
    • ..

任何人都可以向我指出正确的方向,哪种更好的方法来启动安装了Spark和Anaconda Python(或至少是scipy和PIL)的集群。

您可以使用EMR引导操作静默安装anaconda吗?

您可能还需要考虑Lambda,因为它现在支持Python(2.7)。 假设文件已经在S3中,则需要为它们编写Lambda事件脚本。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM