在 Spark dataframe 中将一行中的值替换为另一行中的值

Question

我有一个 dataframe 像这样：

ID	起始值	结束值
1	null	11a
1	554	22b
2	null	33c
2	6743	44天

假设我们将始终有 2 行具有相同的id ，其中startValue具有值，另一行startValue始终为 null。 我想用startValue-10替换startValue中的 null 值，其中startValue取自具有相同 ID 的行，其中startValue不是 null。

ID	起始值	结束值
1	544	11a
1	554	22b
2	6733	33c
2	6743	44天

示例数据框：

val df = Seq(
("1", null, "11a"),
("1", 554, "22b"),
("2", null, "33c"),
("2", 6743, "44d"),
).toDF("id", "startValue", "endValue")

Answer 1

您可以将空值与在id的同一分区中找到的另一个startValue coalesce ，减去 10：

import org.apache.spark.sql.expressions.Window

val df2 = df.withColumn(
    "startValue",
    coalesce($"startValue", max($"startValue").over(Window.partitionBy("id")) - 10)
)

df2.show
+---+----------+--------+
| id|startValue|endValue|
+---+----------+--------+
|  1|       544|     11a|
|  1|       554|     22b|
|  2|      6733|     33c|
|  2|      6743|     44d|
+---+----------+--------+

在 Spark dataframe 中将一行中的值替换为另一行中的值

问题描述

1 个解决方案

解决方案1
0 已采纳 2021-01-26 16:26:13

在 Spark dataframe 中将一行中的值替换为另一行中的值

问题描述

1 个解决方案

解决方案1 0 已采纳 2021-01-26 16:26:13

解决方案1
0 已采纳 2021-01-26 16:26:13