Spark不使用紗線群集資源

Question

我正在嘗試在Hadoop集群（2.4.2）上使用Spark（1.6.1）運行Python腳本。 使用Ambari（2.2.1.1）安裝，配置和管理了群集。

我有一個包含4個節點的群集（每個40Gb HD-8核心-16Gb RAM）。

我的腳本使用sklearn lib：所以為了在spark上並行化，我使用spark_sklearn lib（請參見https://databricks.com/blog/2016/02/08/auto-scaling-scikit-learn-with-spark。 html ）。

在這一點上，我嘗試使用以下命令運行腳本：

spark-submit spark_example.py --master yarn --deploy-mode client --num-executors 8 --num-executor-core 4 --executor-memory 2G

但是它總是在只有一個執行程序的localhost上運行。

同樣從Ambari儀表板中，我可以看到群集中只有一個節點消耗資源。 並且嘗試不同的配置（執行程序，內核）的執行時間是相同的。

更新

這是Yarn UI Nodes屏幕截圖：

這是調度程序選項卡：

有任何想法嗎？

非常感謝

Answer 1

對於Hortonworks社區中相同問題的回答，我會做出回應。

設置參數MASTER="yarn-cluster" （或MASTER="yarn-client" ）似乎可以正常工作：現在，我在Spark History和YARN History UI中看到了應用程序報告。

ps：似乎未考慮通過命令行傳遞的參數（例如： --num-executors 8--num-executor-core 4--executor-memory 2G ）。 相反，如果我在Ambari提交的“ spark-env template ”中設置了執行者參數 ，則會考慮這些參數。 無論如何，現在它可以工作了:)

我希望這對以后的人有所幫助。

Spark不使用紗線群集資源

問題描述

1 個解決方案

解決方案1
0 2016-05-12 08:48:21

Spark不使用紗線群集資源

問題描述

1 個解決方案

解決方案1 0 2016-05-12 08:48:21

解決方案1
0 2016-05-12 08:48:21