[英]how can I keep partition'number not change when I use window.partitionBy() function with spark/scala?
我有一个RDD
中, RDD' partition
的结果变为200,当我使用window
,我不能改变partition
,当我使用window
?
这是我的代码:
val rdd= sc.parallelize(List(1,3,2,4,5,6,7,8),4)
val result = rdd.toDF("values").withColumn("csum", sum(col("values")).over(Window.partitionBy(col("values")))).rdd
println(result.getNumPartitions + "rdd2")
我的输入分区是4,为什么结果分区是200?
我希望我的结果分区也是4。
有没有更清洁的解决方案?
注意:如@eliasah所述 - 当使用带有spark的窗口函数时,无法避免重新分区
- 为什么结果分区是200?
Spark doc spark.sql.shuffle.partitions
的默认值,用于配置在为连接或聚合重排数据时使用的分区数 - 是200
- 我怎样才能重新分配到4?
您可以使用:
coalesce(4)
要么
repartition(4)
coalesce(numPartitions)将RDD中的分区数减少为numPartitions。 过滤大型数据集后,可以更有效地运行操作。
repartition(numPartitions)随机重新调整RDD中的数据以创建更多或更少的分区并在它们之间进行平衡。 这总是随机播放网络上的所有数据。
(还将此答案添加到https://stackoverflow.com/a/44384638/3415409 )
我只是在阅读有关使用groupBy聚合时控制分区数量的文章,来自https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-performance-tuning-groupBy-aggregation.html ,看起来是一样的诀窍适用于Window,在我的代码中我定义了一个窗口
windowSpec = Window \
.partitionBy('colA', 'colB') \
.orderBy('timeCol') \
.rowsBetween(1, 1)
然后做
next_event = F.lead('timeCol', 1).over(windowSpec)
并通过创建数据帧
df2 = df.withColumn('next_event', next_event)
事实上,它有200个分区。 但是,如果我这样做
df2 = df.repartition(10, 'colA', 'colB').withColumn('next_event', next_event)
它有10个!
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.