繁体   English   中英

如何在Spark中创建更多分区而不会导致混乱

[英]How can I make more partitions in Spark without causing a shuffle

基本上我的用例是这样的,在第一阶段,我只能有几个分区,因为每个任务运行一个C程序,需要多达10 GB的内存。 但是,我稍后会使用RangePartitioner。 但是在前一阶段中只有很少的分区,RangePartitioner在执行后缀时会抛出内存错误。 这是一个众所周知的事实,当你的分区太少时,Spark可以在shuffle中抛出内存错误。

现在,我想要的是简单地将已存在的分区划分为更多分区。 基本上,与Spark中的联合相反。 如果我使用分区器,例如HashPartitioner,它显然会导致shuffle,我想避免。 那么,我怎样才能做到这一点?

不是在这个时候。 您可以追踪相关的JIRA门票: https//issues.apache.org/jira/browse/SPARK-5997

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM