簡體   English   中英

如何在Spark中創建更多分區而不會導致混亂

[英]How can I make more partitions in Spark without causing a shuffle

基本上我的用例是這樣的,在第一階段,我只能有幾個分區,因為每個任務運行一個C程序,需要多達10 GB的內存。 但是,我稍后會使用RangePartitioner。 但是在前一階段中只有很少的分區,RangePartitioner在執行后綴時會拋出內存錯誤。 這是一個眾所周知的事實,當你的分區太少時,Spark可以在shuffle中拋出內存錯誤。

現在,我想要的是簡單地將已存在的分區划分為更多分區。 基本上,與Spark中的聯合相反。 如果我使用分區器,例如HashPartitioner,它顯然會導致shuffle,我想避免。 那么,我怎樣才能做到這一點?

不是在這個時候。 您可以追蹤相關的JIRA門票: https//issues.apache.org/jira/browse/SPARK-5997

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM