[英]How to decide the better spark.sql.shuffle.partitions number for a spark job
我的日常 Spark 应用程序处理所有数据湖步骤,从处理原始层(重复数据删除和 etl 函数)开始,创建 DW 和数据集市......当我启动 sparkSession 时,我无法决定什么是spark.sql的更好配置。 shuffle.partitions值。 我的集群配置:
我的问题是:如何选择spark.sql.shuffle.partitions的更好值以在我的 spark 作业中获得性能。 谢谢
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.