[英]Does spark handle data shuffling?
我有我轉換成整個集群的RDD X傳播所輸入的音頻。
我對其執行某些操作。
然后在輸出rdd上執行.repartition(1)
。
我的輸出rdd與輸入A的順序相同嗎?
Spark會自動處理嗎? 如果是,那怎么辦?
文檔不保證將保留訂單,因此您可以假設不會保留。 如果您看一下實現,您肯定會發現它不會(除非出於某種原因您的原始RDD已經具有1個分區): repartition
調用coalesce(shuffle = true)
,這
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.