[英]Does spark handle data shuffling?
我有我转换成整个集群的RDD X传播所输入的音频。
我对其执行某些操作。
然后在输出rdd上执行.repartition(1)
。
我的输出rdd与输入A的顺序相同吗?
Spark会自动处理吗? 如果是,那怎么办?
文档不保证将保留订单,因此您可以假设不会保留。 如果您看一下实现,您肯定会发现它不会(除非出于某种原因您的原始RDD已经具有1个分区): repartition
调用coalesce(shuffle = true)
,这
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.