在多节点上将镶木地板写入 HDFS 的速度非常慢

Question

我用--master local[*]运行良好的火花提交，

但是当我在我的多节点集群上运行 spark submit --master ip of master:port --deploy-mode client ：我的应用程序运行良好，直到将 HDFS 写入 parquet，它不会停止，没有错误消息，什么都没有，仍然正在运行..我在应用程序中检测到阻塞部分，它是：

resultDataFrame.write.parquet(path)

我试过

resultDataFrame.repartition(1).write.parquet(path)

但还是一样...

预先感谢您的帮助

Answer 1

我可以看到您正在尝试将 master 用作 local[*]，它将在本地模式下运行 spark 作业并且无法使用集群资源。

如果您在集群上运行 spark 作业，您可以查找 spark 提交选项，例如 master as yarn 和 deploy mode is cluster，这里是下面提到的命令。

spark-submit --class **--master yarn --deploy-mode cluster ** --conf = ... # 其他选项 [application-arguments]

一旦您使用 yarn master 并以集群部署模式运行 spark 作业，它将尝试利用所有集群资源。

在多节点上将镶木地板写入 HDFS 的速度非常慢

问题描述

1 个解决方案

解决方案1
0 2018-12-05 18:15:19

在多节点上将镶木地板写入 HDFS 的速度非常慢

问题描述

1 个解决方案

解决方案1 0 2018-12-05 18:15:19

解决方案1
0 2018-12-05 18:15:19