繁体   English   中英

当提供 --py-files 时,--deploy-mode 集群中的 Azure HDInsight 中的 spark-submit 作业失败

[英]spark-submit job FAILS in Azure HDInsight in --deploy-mode cluster when --py-files are provided

在 Azure HDIinsight 集群中指定 --files 时,面临与 Spark 提交失败相同的问题

但是在上面的帖子中看不到任何答案。

问题:Spark-submit 作业在以下情况下失败:--master yarn --deploy --master yarn --deploy-mode cluster--py-files ZIPfile.zip提供它在--master yarn --deploy-mode client模式下工作正常。

Azure HDInsight 4.0 有问题吗?

我提到了链接。 这可能与无法创建目录的权限问题有关。 引用的目录/mnt/resource/hadoop/yarn/local/usercache/<username>/appcache/<applicationID>用于存储中间结果,然后根据是写入路径还是存储到 HDFS/memory分别在临时表中。 用户可能没有权限。 一旦工作完成,它就会被冲洗掉。 在特定工作节点的路径/mnt/resource/hadoop/yarn/local/usercache中为用户提供正确的权限应该可以解决问题。

您提到它在 spark-shell 或作为客户端的部署模式下成功执行。 所以让我向你解释一下有什么区别

星火客户端

  1. spark 作业的驱动程序组件基本上在您提交作业的机器上运行,并且该机器中存在适当的 jars/文件。 这意味着它拥有所有可用资源来执行工作。

星火集群

  1. 驱动程序在集群的一个 Worker 节点上运行。 工人是由主人选择的。

那么,关于您的问题,文件/jar 是分布在节点上还是放置在 Azure 存储(WN 可以访问它的地方)中? 如果不是,请将文件放在所有工作节点的相同目录(如头节点)中,然后执行。 您可以利用 HDInsight 群集的script action将文件放置在节点中。 如果仍然失败,请粘贴完整的错误跟踪。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM