使用窗口函数计算PySpark中的累积和

Question

我有以下示例DataFrame：

rdd = sc.parallelize([(1,20), (2,30), (3,30)])
df2 = spark.createDataFrame(rdd, ["id", "duration"])
df2.show()

+---+--------+
| id|duration|
+---+--------+
|  1|      20|
|  2|      30|
|  3|      30|
+---+--------+

我想按持续时间的降序对这个DataFrame进行排序，并添加一个新列，该列具有持续时间的累积总和。 所以我做了以下事情：

windowSpec = Window.orderBy(df2['duration'].desc())

df_cum_sum = df2.withColumn("duration_cum_sum", sum('duration').over(windowSpec))

df_cum_sum.show()

+---+--------+----------------+
| id|duration|duration_cum_sum|
+---+--------+----------------+
|  2|      30|              60|
|  3|      30|              60|
|  1|      20|              80|
+---+--------+----------------+

我想要的输出是：

+---+--------+----------------+
| id|duration|duration_cum_sum|
+---+--------+----------------+
|  2|      30|              30| 
|  3|      30|              60| 
|  1|      20|              80|
+---+--------+----------------+

我怎么得到这个？

这是细分：

+--------+----------------+
|duration|duration_cum_sum|
+--------+----------------+
|      30|              30| #First value
|      30|              60| #Current duration + previous cum sum value
|      20|              80| #Current duration + previous cum sum value     
+--------+----------------+

Answer 1

您可以引入row_number来打破row_number 。 如果用sql编写：

df2.selectExpr(
    "id", "duration", 
    "sum(duration) over (order by row_number() over (order by duration desc)) as duration_cum_sum"
 ).show()

+---+--------+----------------+
| id|duration|duration_cum_sum|
+---+--------+----------------+
|  2|      30|              30|
|  3|      30|              60|
|  1|      20|              80|
+---+--------+----------------+

Answer 2

在这里你可以检查一下

df2.withColumn('cumu', F.sum('duration').over(Window.orderBy(F.col('duration').desc()).rowsBetween(Window.unboundedPreceding, 0)
)).show()

使用窗口函数计算PySpark中的累积和

问题描述

2 个解决方案

解决方案1
1 2017-10-27 16:59:40

解决方案2
0 2019-04-05 11:35:39

使用窗口函数计算PySpark中的累积和

问题描述

2 个解决方案

解决方案1 1 2017-10-27 16:59:40

解决方案2 0 2019-04-05 11:35:39

解决方案1
1 2017-10-27 16:59:40

解决方案2
0 2019-04-05 11:35:39