繁体   English   中英

Hadoop Capacity Scheduler和Spark

[英]Hadoop Capacity Scheduler and Spark

如果我在纱线中定义CapacityScheduler队列,如此处所述

http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html

我如何使火花使用此?

我想运行spark作业...但是它们不应占用所有群集,而应在CapacityScheduler上执行,该CapacityScheduler为其分配了一组固定的资源。

这是否有可能...特别是在cloudera平台上(假设cloudera上的火花在纱线上运行?)。

  1. 您应通过编辑Capacity-scheduler.xml来根据需要配置CapacityScheduler。 您还需要在yarn-site.xml中将yarn.resourcemanager.scheduler.class指定为org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler,这也是当前hadoop版本的默认选项
  2. 将Spark作业提交到设计的队列。

例如:

$ ./bin/spark-submit --class org.apache.spark.examples.SparkPi \
    --master yarn \
    --deploy-mode cluster \
    --driver-memory 4g \
    --executor-memory 2g \
    --executor-cores 1 \
    --queue thequeue \
    lib/spark-examples*.jar \
    10

--queue指示您将提交的队列,该队列应与CapacityScheduler配置一致

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM