簡體   English   中英

Spark不使用紗線群集資源

[英]Spark not using Yarn Cluster Resources

我正在嘗試在Hadoop集群(2.4.2)上使用Spark(1.6.1)運行Python腳本。 使用Ambari(2.2.1.1)安裝,配置和管理了群集。

我有一個包含4個節點的群集(每個40Gb HD-8核心-16Gb RAM)。

我的腳本使用sklearn lib:所以為了在spark上並行化,我使用spark_sklearn lib(請參見https://databricks.com/blog/2016/02/08/auto-scaling-scikit-learn-with-spark。 html )。

在這一點上,我嘗試使用以下命令運行腳本:

spark-submit spark_example.py --master yarn --deploy-mode client --num-executors 8 --num-executor-core 4 --executor-memory 2G

但是它總是在只有一個執行程序的localhost上運行。

在此處輸入圖片說明

同樣從Ambari儀表板中,我可以看到群集中只有一個節點消耗資源。 並且嘗試不同的配置(執行程序,內核)的執行時間是相同的。

更新

這是Yarn UI Nodes屏幕截圖:

在此處輸入圖片說明

這是調度程序選項卡:

在此處輸入圖片說明 在此處輸入圖片說明

有任何想法嗎?

非常感謝

對於Hortonworks社區中相同問題的回答,我會做出回應

設置參數MASTER="yarn-cluster" (或MASTER="yarn-client" )似乎可以正常工作:現在,我在Spark History和YARN History UI中看到了應用程序報告。

在此處輸入圖片說明

ps:似乎未考慮通過命令行傳遞的參數(例如: --num-executors 8--num-executor-core 4--executor-memory 2G )。 相反,如果我在Ambari提交的“ spark-env template ”中設置了執行者參數 ,則會考慮這些參數。 無論如何,現在它可以工作了:)

我希望這對以后的人有所幫助。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM