[英]How can I make more partitions in Spark without causing a shuffle
基本上我的用例是这样的,在第一阶段,我只能有几个分区,因为每个任务运行一个C程序,需要多达10 GB的内存。 但是,我稍后会使用RangePartitioner。 但是在前一阶段中只有很少的分区,RangePartitioner在执行后缀时会抛出内存错误。 这是一个众所周知的事实,当你的分区太少时,Spark可以在shuffle中抛出内存错误。
现在,我想要的是简单地将已存在的分区划分为更多分区。 基本上,与Spark中的联合相反。 如果我使用分区器,例如HashPartitioner,它显然会导致shuffle,我想避免。 那么,我怎样才能做到这一点?
不是在这个时候。 您可以追踪相关的JIRA门票: https : //issues.apache.org/jira/browse/SPARK-5997
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.