繁体   English   中英

是否可以使用 YARN 容量调度程序在 Spark 上运行 Hive?

[英]Is it possible to run Hive on Spark with YARN capacity scheduler?

我使用 Apache Hive 2.1.1-cdh6.2.1(Cloudera 发行版)和 MR 作为执行引擎,YARN 的资源管理器使用容量调度程序。

我想尝试将 Spark 作为 Hive 的执行引擎。 在浏览文档时,我发现了一个奇怪的限制:

需要公平调度器而不是容量调度器。 这会公平地为 YARN 集群中的作业分配同等份额的资源。

正确设置所有队列,这对我来说非常不可取。

是否可以使用 YARN 容量调度程序在 Spark 上运行 Hive? 如果不是,为什么?

我不确定您是否可以使用火花引擎执行 Hive。 I highly recommend you configure Hive to use Tez https://cwiki.apache.org/confluence/display/Hive/Hive+on+Tez which is faster than MR and it's pretty similar to Spark due to it uses DAG as the task execution引擎。

我们正在使用直线上的命令在工作中运行它,如https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started仅在 Z5E056C500A1C4B6A74B61AFFB4BAC352EF2BAC82EFB4BAC82EFB4 文件开头编写跑步

set hive.execution.engine=spark;
select ... from table....

我们没有使用容量调度程序,因为每个纱线队列运行数百个作业,并且当作业需要资源时,我们有其他队列让它们运行。 这也允许根据作业组的实际需求设计基于每个队列的作业消耗的配置更现实

希望这可以帮助

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM