![](/img/trans.png)
[英]Scala Spark/Databricks: Efficiently load multiple partitions with different schema?
[英]SPARK: Maintaining different variables for different partitions?
假設我有一些數據,例如:
AB值
1 1 40
1 2 3
1 2 5
2 1 6
2 2 10
在數據框中(比如“df”)。 我已經在 A 和 B 上將其分區為:
df.repartition($"A",$"B")
現在,假設我們應該計算每個分區中可被 2 或 5 整除的值的數量(單獨)。 維護與可用分區數量一樣多的變量是不合理的。 解決此問題的最佳方法是什么?
(請提供適用於 Spark 1.6+ 的解決方案)
您可以通過 .mapPartition 轉換對特定分區進行任何特定計算。例如:
rdd.mapPartition{x=>
var s=0
x.map{
//operation on elements of each partition
}
}
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.