簡體   English   中英

如何配置Hive在Google Dataproc上使用Spark執行引擎?

[英]How to configure Hive to use Spark execution engine on Google Dataproc?

我正在嘗試配置在Google Dataproc映像v1.1(因此Hive 2.1.0和Spark 2.0.2)上運行的Hive,以將Spark用作執行引擎,而不是默認的MapReduce引擎。

按照此處的說明https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started並沒有真正的幫助,我一直在Error running query: java.lang.NoClassDefFoundError: scala/collection/Iterable我設置hive.execution.engine=spark時出現Error running query: java.lang.NoClassDefFoundError: scala/collection/Iterable錯誤。

有誰知道在Dataproc上運行它的具體步驟? 據我所知,這應該是使Hive看到正確的JAR的問題,因為Hive和Spark均已在群集上安裝和配置,並且使用Spark的Hive(反之亦然)也可以正常工作。

這可能不適用於Dataproc集群中的jar。 在Dataproc中,Spark使用Hive捆綁(-Phive)進行編譯,Hive on Spark不建議/不支持。

如果您真的想在Spark上運行Hive,則可能需要嘗試將自己的Spark引入如Wiki中所述編譯的初始化操作中。

如果只想在運行Tez的Dataproc上從MapReduce上運行Hive,則使用此初始化操作可能會更容易。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM