有沒有辦法將兩個火花數據框與每行的自定義連接連接起來

Question

我有兩個數據幀 df 和 df2 如下

+------+---+----+
|  name|age|city|
+------+---+----+
|  John| 25|  LA|
|  Jane| 26|  LA|
|Joseph| 28|  SA|
+------+---+----+

+---+----+------+
|age|city|salary|
+---+----+------+
| 25|  LA| 40000|
| 26|    | 50000|
|   |  SF| 60000|
+---+----+------+

我想要我的結果數據框如下

+------+---+----+------+
|  name|age|city|salary|
+------+---+----+------+
|  John| 25|  LA| 40000|
|  Jane| 26|  LA| 50000|
|Joseph| 28|  SF| 60000|
+------+---+----+------+

基本上在這里我需要使用年齡、城市作為連接列進行連接，但是如果 df2 中的任何一列為空，那么我只需要與另一個非空列連接。 即使有大約 5 列要加入，我正在尋找的解決方案也應該適用，只有非空列應該參與每行的連接。

Answer 1

當您加入這些數據框然后選擇需要 groupBy 時，您可以提供更多條件。

df1.join(df2, 
    ($"age" === $"age2" || $"age2".isNull) &&
    ($"city" === $"city2" || $"city2".isNull), "left")
   .show

結果將是：

+------+---+----+----+-----+-------+
|  name|age|city|age2|city2|salary2|
+------+---+----+----+-----+-------+
|  John| 25|  LA|  25|   LA|  40000|
|  Jane| 26|  LA|  26| null|  50000|
|Joseph| 28|  SF|null|   SF|  60000|
+------+---+----+----+-----+-------+

但是當你有更多的列或者第二個數據幀有更多的空值時，結果會更復雜。

Answer 2

df1.join(df2,df1.col("age")===df2.col("age") || df1.col("city")===df2.col("city")).select(df1.col("name"),df1.col("age"),df1.col("city"),df2.col("salary")).show
+----+---+----+------+
|name|age|city|salary|
+----+---+----+------+
|john| 25|  LA| 40000|
|Jane| 26|  LA| 40000|
|Jane| 26|  LA| 50000|
+----+---+----+------+```

有沒有辦法將兩個火花數據框與每行的自定義連接連接起來

問題描述

2 個解決方案

解決方案1
1 2020-03-14 10:22:16

解決方案2
1 2020-03-14 15:15:44

有沒有辦法將兩個火花數據框與每行的自定義連接連接起來

問題描述

2 個解決方案

解決方案1 1 2020-03-14 10:22:16

解決方案2 1 2020-03-14 15:15:44

解決方案1
1 2020-03-14 10:22:16

解決方案2
1 2020-03-14 15:15:44