繁体   English   中英

火花 - 提交纱线 - 多个工作

[英]spark-submit on yarn - multiple jobs

我想用纱线提交多个火花提交作业。 我跑的时候

spark-submit --class myclass --master yarn --deploy-mode cluster blah blah

就像现在一样,我必须等待工作完成,让我提交更多工作。 我看到了心跳:

16/09/19 16:12:41 INFO yarn.Client: Application report for application_1474313490816_0015 (state: RUNNING) 16/09/19 16:12:42 INFO yarn.Client: Application report for application_1474313490816_0015 (state: RUNNING)

如何告诉纱线从同一个终端获取另一份工作。 最终,我希望能够从一个脚本中运行,我可以一次性发送数百个作业。

谢谢。

每个用户都具有纱线配置中指定的固定容量。 如果为您分配N个执行程序(通常会为您分配一些固定数量的vcores ),并且您希望运行100个作业,则需要为每个作业指定分配:

spark-submit --num-executors N/100 --executor-cores 5

否则,作业将循环接受。

您可以使用&在每次调用的最后一次并行启动多个作业。

for i in seq 20 ; do spark-submit --master yarn --num-executors N/100 --executor-cores 5 blah blah &; done ; do spark-submit --master yarn --num-executors N/100 --executor-cores 5 blah blah &; done

  • 检查spark中的动态分配
  • 如果FIFO将其更改为FAIR ,请检查Yarn正在使用的调度程序
  • 您打算如何为纱线上的N个工作分配资源?

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM