簡體   English   中英

火花 - 提交紗線 - 多個工作

[英]spark-submit on yarn - multiple jobs

我想用紗線提交多個火花提交作業。 我跑的時候

spark-submit --class myclass --master yarn --deploy-mode cluster blah blah

就像現在一樣,我必須等待工作完成,讓我提交更多工作。 我看到了心跳:

16/09/19 16:12:41 INFO yarn.Client: Application report for application_1474313490816_0015 (state: RUNNING) 16/09/19 16:12:42 INFO yarn.Client: Application report for application_1474313490816_0015 (state: RUNNING)

如何告訴紗線從同一個終端獲取另一份工作。 最終,我希望能夠從一個腳本中運行,我可以一次性發送數百個作業。

謝謝。

每個用戶都具有紗線配置中指定的固定容量。 如果為您分配N個執行程序(通常會為您分配一些固定數量的vcores ),並且您希望運行100個作業,則需要為每個作業指定分配:

spark-submit --num-executors N/100 --executor-cores 5

否則,作業將循環接受。

您可以使用&在每次調用的最后一次並行啟動多個作業。

for i in seq 20 ; do spark-submit --master yarn --num-executors N/100 --executor-cores 5 blah blah &; done ; do spark-submit --master yarn --num-executors N/100 --executor-cores 5 blah blah &; done

  • 檢查spark中的動態分配
  • 如果FIFO將其更改為FAIR ,請檢查Yarn正在使用的調度程序
  • 您打算如何為紗線上的N個工作分配資源?

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM