[英]Spark not using Yarn Cluster Resources
我正在嘗試在Hadoop集群(2.4.2)上使用Spark(1.6.1)運行Python腳本。 使用Ambari(2.2.1.1)安裝,配置和管理了群集。
我有一個包含4個節點的群集(每個40Gb HD-8核心-16Gb RAM)。
我的腳本使用sklearn
lib:所以為了在spark上並行化,我使用spark_sklearn
lib(請參見https://databricks.com/blog/2016/02/08/auto-scaling-scikit-learn-with-spark。 html )。
在這一點上,我嘗試使用以下命令運行腳本:
spark-submit spark_example.py --master yarn --deploy-mode client --num-executors 8 --num-executor-core 4 --executor-memory 2G
但是它總是在只有一個執行程序的localhost上運行。
同樣從Ambari儀表板中,我可以看到群集中只有一個節點消耗資源。 並且嘗試不同的配置(執行程序,內核)的執行時間是相同的。
更新
這是Yarn UI Nodes屏幕截圖:
這是調度程序選項卡:
有任何想法嗎?
非常感謝
對於Hortonworks社區中相同問題的回答,我會做出回應。
設置參數MASTER="yarn-cluster"
(或MASTER="yarn-client"
)似乎可以正常工作:現在,我在Spark History和YARN History UI中看到了應用程序報告。
ps:似乎未考慮通過命令行傳遞的參數(例如: --num-executors 8--num-executor-core 4--executor-memory 2G
)。 相反,如果我在Ambari提交的“ spark-env template
”中設置了執行者參數 ,則會考慮這些參數。 無論如何,現在它可以工作了:)
我希望這對以后的人有所幫助。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.