簡體   English   中英

SPARK:為不同的分區維護不同的變量?

[英]SPARK: Maintaining different variables for different partitions?

假設我有一些數據,例如:

AB值
1 1 40
1 2 3
1 2 5
2 1 6
2 2 10

在數據框中(比如“df”)。 我已經在 A 和 B 上將其分區為:

df.repartition($"A",$"B")

現在,假設我們應該計算每個分區中可被 2 或 5 整除的值的數量(單獨)。 維護與可用分區數量一樣多的變量是不合理的。 解決此問題的最佳方法是什么?

(請提供適用於 Spark 1.6+ 的解決方案)

您可以通過 .mapPartition 轉換對特定分區進行任何特定計算。例如:

rdd.mapPartition{x=> 
var s=0
x.map{
   //operation on elements of each partition 
} 
}

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM