
[英]Apache Spark 2.3.1 compatibility with Hadoop 3.0 in HDP 3.0
[英]Apache spark 3.0 with HDP 2.6 stack
我们计划在现有 HDP 2.6 集群之外设置 Apache Spark 3.0,并在该集群中使用 yarn(v2.7) 提交作业,而无需升级或修改。 目前用户使用的是包含在 HDP 堆栈中的 Spark 2.3。 目标是在不中断当前作业的情况下,在 HDP 集群之外启用 Apache Spark 3.0。
什么是最好的方法? 在 HDP 集群之外设置 apache 3.0 客户端节点并从新的客户端节点提交?
对此有什么建议吗? 避免与当前 HDP 堆栈及其组件发生冲突的事项?
使用特定(HDP 2.6)Hadoop,Hive 版本从 spark 源代码3.0.1构建 spark 3.0.1。 然后仅将其部署在 HDP 客户端节点中。 Spark 3.0.1 预构建二进制文件与 Hive 1.2.1 存在兼容性问题,因为它是用最新的 hive 构建的。
构建选项:
./build/mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.3 -Phive-1.2 -Phive-thriftserver -DskipTests -Dmaven.test.skip=true clean package
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.