[英]How to run a Spark job on EMR via Cloudformation
我刚刚开始使用 AWS,并且一直在使用 EMR 和 CloudFormation。 我的目标是编写一个 Cloudformation 模板,它将:
1. Create an EMR cluster with Spark and Hadoop installed
2. Run Spark jobs on the EMR cluster. Jobs will be submitted as a JAR or Pyspark files.
我已经能够成功完成第 1 步,但我不确定第 2 步应该如何通过 CloudFormation 完成。
我一直在尝试查看 AWS 文档和其他站点上的几个示例,但我看不到通过 CloudFormation 模板部署 spark 作业的示例。
任何正确方向的示例或指示都会非常有帮助。 提前致谢!
像 EMR 的参数部分一样更改您的 EMR Cloudformation 脚本
StepScriptFilePath:
Type: String
Description: Step Scipt to run a bash script or add a java file here
Default: 's3://s3-bucket/steps/step1.sh'
StepScriptFilePython:
Type: String
Description: Step Scipt to run a python file file
Default: 's3://s3-bucket/steps/step2.py'
StepJar:
Type: String
Description: Spark jar file
Default: 's3://elasticmapreduce/libs/script-runner/script-runner.jar'
在 EMR 属性下添加此项
Steps:
- ActionOnFailure: CONTINUE
HadoopJarStep:
Args:
- Ref: StepScriptFile
Jar:
Ref: StepJar
MainClass: ''
Name: run any bash or java job in spark
- ActionOnFailure: CONTINUE
HadoopJarStep:
Args:
- "spark-submit"
- Ref: StepScriptFilePython
Jar: command-runner.jar
Name: run a python script job
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.