Hadoop Capacity Scheduler和Spark

Question

如果我在纱线中定义CapacityScheduler队列，如此处所述

http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html

我如何使火花使用此？

我想运行spark作业...但是它们不应占用所有群集，而应在CapacityScheduler上执行，该CapacityScheduler为其分配了一组固定的资源。

这是否有可能...特别是在cloudera平台上（假设cloudera上的火花在纱线上运行？）。

Answer 1

您应通过编辑Capacity-scheduler.xml来根据需要配置CapacityScheduler。 您还需要在yarn-site.xml中将yarn.resourcemanager.scheduler.class指定为org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler，这也是当前hadoop版本的默认选项
将Spark作业提交到设计的队列。

例如：

$ ./bin/spark-submit --class org.apache.spark.examples.SparkPi \
    --master yarn \
    --deploy-mode cluster \
    --driver-memory 4g \
    --executor-memory 2g \
    --executor-cores 1 \
    --queue thequeue \
    lib/spark-examples*.jar \
    10

--queue指示您将提交的队列，该队列应与CapacityScheduler配置一致

Hadoop Capacity Scheduler和Spark

问题描述

1 个解决方案

解决方案1
1 已采纳 2016-04-28 22:02:28

Hadoop Capacity Scheduler和Spark

问题描述

1 个解决方案

解决方案1 1 已采纳 2016-04-28 22:02:28

解决方案1
1 已采纳 2016-04-28 22:02:28