繁体   English   中英

如何配置Hive在Google Dataproc上使用Spark执行引擎?

[英]How to configure Hive to use Spark execution engine on Google Dataproc?

我正在尝试配置在Google Dataproc映像v1.1(因此Hive 2.1.0和Spark 2.0.2)上运行的Hive,以将Spark用作执行引擎,而不是默认的MapReduce引擎。

按照此处的说明https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started并没有真正的帮助,我一直在Error running query: java.lang.NoClassDefFoundError: scala/collection/Iterable我设置hive.execution.engine=spark时出现Error running query: java.lang.NoClassDefFoundError: scala/collection/Iterable错误。

有谁知道在Dataproc上运行它的具体步骤? 据我所知,这应该是使Hive看到正确的JAR的问题,因为Hive和Spark均已在群集上安装和配置,并且使用Spark的Hive(反之亦然)也可以正常工作。

这可能不适用于Dataproc集群中的jar。 在Dataproc中,Spark使用Hive捆绑(-Phive)进行编译,Hive on Spark不建议/不支持。

如果您真的想在Spark上运行Hive,则可能需要尝试将自己的Spark引入如Wiki中所述编译的初始化操作中。

如果只想在运行Tez的Dataproc上从MapReduce上运行Hive,则使用此初始化操作可能会更容易。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM