簡體   English   中英

在YARN上運行Spark-Submit但是不平衡(只有1個節點正在運行)

[英]run Spark-Submit on YARN but Imbalance (only 1 node is working)

我嘗試在YARN-CLUSTER(2個節點)上運行Spark應用程序 ,但似乎這兩個節點是不平衡的,因為只有一個節點正在工作但另一個節點不工作。

我的劇本:

spark-submit --class org.apache.spark.examples.SparkPi 
--master yarn-cluster --deploy-mode cluster --num-executors 2 
--driver-memory 1G 
--executor-memory 1G 
--executor-cores 2 spark-examples-1.6.1-hadoop2.6.0.jar 1000

我看到我的一個節點正在工作,但另一個節點沒有,所以這是不平衡的:

在此輸入圖像描述 注意:左邊是namenodedatanode在右邊...

任何的想法 ?

完整的數據集可以是其中一個節點的本地數據集,因此可能會嘗試遵循數據局部性。 您可以在啟動spark-submit時嘗試以下配置

--conf“spark.locality.wait.node = 0”

這對我有用。

您正在以yarn-cluster模式運行作業,在群集模式下,Spark驅動程序在群集主機上的ApplicationMaster中運行

嘗試在yarn-client模式下運行它,在客戶端模式下Spark驅動程序在提交作業的主機上運行,​​因此您將能夠在控制台上看到輸出

spark-submit --verbose --class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
--num-executors 2 \
--driver-memory 1G \
--executor-memory 1G \
--executor-cores 2 spark-examples-1.6.1-hadoop2.6.0.jar 10

您可以檢查執行程序從SPARK UI啟動的節點

Spark UI提供啟動執行的節點的詳細信息

Executor是Spark UI中的TAB

在此輸入圖像描述

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM