[英]How to run a Spark job on EMR via Cloudformation
我剛剛開始使用 AWS,並且一直在使用 EMR 和 CloudFormation。 我的目標是編寫一個 Cloudformation 模板,它將:
1. Create an EMR cluster with Spark and Hadoop installed
2. Run Spark jobs on the EMR cluster. Jobs will be submitted as a JAR or Pyspark files.
我已經能夠成功完成第 1 步,但我不確定第 2 步應該如何通過 CloudFormation 完成。
我一直在嘗試查看 AWS 文檔和其他站點上的幾個示例,但我看不到通過 CloudFormation 模板部署 spark 作業的示例。
任何正確方向的示例或指示都會非常有幫助。 提前致謝!
像 EMR 的參數部分一樣更改您的 EMR Cloudformation 腳本
StepScriptFilePath:
Type: String
Description: Step Scipt to run a bash script or add a java file here
Default: 's3://s3-bucket/steps/step1.sh'
StepScriptFilePython:
Type: String
Description: Step Scipt to run a python file file
Default: 's3://s3-bucket/steps/step2.py'
StepJar:
Type: String
Description: Spark jar file
Default: 's3://elasticmapreduce/libs/script-runner/script-runner.jar'
在 EMR 屬性下添加此項
Steps:
- ActionOnFailure: CONTINUE
HadoopJarStep:
Args:
- Ref: StepScriptFile
Jar:
Ref: StepJar
MainClass: ''
Name: run any bash or java job in spark
- ActionOnFailure: CONTINUE
HadoopJarStep:
Args:
- "spark-submit"
- Ref: StepScriptFilePython
Jar: command-runner.jar
Name: run a python script job
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.