[英]Process lots of images using AWS
我在S3中存储了很多100K +的图像,并且我有一些使用pySpark进行处理的代码。 我正在使用Anaconda Python,因此已经正确安装了大量库,正在使用库scipy
, PIL
进行图像处理。
我正计划使用EMR,但以下是我的选择:
对于Python应用程序,只需将.py文件代替JAR传递,然后使用--py-files将Python .zip,.egg或.py文件添加到搜索路径。 -[火花文件]
他们还支持自定义引导程序,以在配置群集时安装软件。 但是,事实证明,Anaconda的linux安装并不像'yum install -y'那样容易。 安装涉及:
任何人都可以向我指出正确的方向,哪种更好的方法来启动安装了Spark和Anaconda Python(或至少是scipy和PIL)的集群。
您可以使用EMR引导操作来静默安装anaconda吗?
您可能还需要考虑Lambda,因为它现在支持Python(2.7)。 假设文件已经在S3中,则需要为它们编写Lambda事件脚本。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.