連接兩個數據框並使用 Spark Scala 替換原始列值

Question

我有兩個 DF

df1：

+---+-----+--------+
|key|price|    date|
+---+-----+--------+
|  1|  1.0|20210101|
|  2|  2.0|20210101|
|  3|  3.0|20210101|
+---+-----+--------+

df2:

+---+-----+
|key|price|
+---+-----+
|  1|  1.1|
|  2|  2.2|
|  3|  3.3|
+---+-----+

我想將df1中的price列值替換為df2中的price值，其中df1.key == df2.key

預期 output：

+---+-----+--------+
|key|price|    date|
+---+-----+--------+
|  1|  1.1|20210101|
|  2|  2.1|20210101|
|  3|  3.3|20210101|
+---+-----+--------+

我在 python 中找到了一些解決方案，但我無法在 Scala 中找到可行的解決方案。

Answer 1

只需加入 + 刪除df1列價格：

val df = df1.join(df2, Seq("key")).drop(df1("price"))

df.show
//+---+-----+--------+
//|key|price|    date|
//+---+-----+--------+
//|  1|  1.1|20210101|
//|  2|  2.2|20210101|
//|  3|  3.3|20210101|
//+---+-----+--------+

或者，如果您在df1中有更多條目，並且希望在df2中沒有匹配項時保留其price ，則使用左連接 + 合並表達式：

val df = df1.join(df2, Seq("key"), "left").select(
  col("key"),
  col("date"),
  coalesce(df2("price"), df1("price")).as("price")
)

連接兩個數據框並使用 Spark Scala 替換原始列值

問題描述

1 個解決方案

解決方案1
0 2022-01-05 22:21:54

連接兩個數據框並使用 Spark Scala 替換原始列值

問題描述

1 個解決方案

解決方案1 0 2022-01-05 22:21:54

解決方案1
0 2022-01-05 22:21:54