SPARK：為不同的分區維護不同的變量？

Question

假設我有一些數據，例如：

AB值
1 1 40
1 2 3
1 2 5
2 1 6
2 2 10

在數據框中（比如“df”）。 我已經在 A 和 B 上將其分區為：

df.repartition($"A",$"B")

現在，假設我們應該計算每個分區中可被 2 或 5 整除的值的數量（單獨）。 維護與可用分區數量一樣多的變量是不合理的。 解決此問題的最佳方法是什么？

（請提供適用於 Spark 1.6+ 的解決方案）

Answer 1

您可以通過 .mapPartition 轉換對特定分區進行任何特定計算。例如：

rdd.mapPartition{x=> 
var s=0
x.map{
   //operation on elements of each partition 
} 
}