[英]spark write parquet to HDFS very slow on multi node
我用--master local[*]
运行良好的火花提交,
但是当我在我的多节点集群上运行 spark submit --master ip of master:port --deploy-mode client
:我的应用程序运行良好,直到将 HDFS 写入 parquet,它不会停止,没有错误消息,什么都没有,仍然正在运行..我在应用程序中检测到阻塞部分,它是:
resultDataFrame.write.parquet(path)
我试过
resultDataFrame.repartition(1).write.parquet(path)
但还是一样...
预先感谢您的帮助
我可以看到您正在尝试将 master 用作 local[*],它将在本地模式下运行 spark 作业并且无法使用集群资源。
如果您在集群上运行 spark 作业,您可以查找 spark 提交选项,例如 master as yarn 和 deploy mode is cluster,这里是下面提到的命令。
spark-submit --class **--master yarn --deploy-mode cluster ** --conf = ... # 其他选项 [application-arguments]
一旦您使用 yarn master 并以集群部署模式运行 spark 作业,它将尝试利用所有集群资源。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.