根據列減去 2 個 pyspark 數據幀

Question

我有 2 個 pyspark 數據框，

i
+---+-----+
| ID|COL_A|
+---+-----+
|  1|  123|
|  2|  456|
|  3|  111|
|  4|  678|
+---+-----+
j
+----+-----+
|ID_B|COL_B|
+----+-----+
|   2|  456|
|   3|  111|
|   4|  876|
+----+-----+

我試圖根據特定列的值從j減去i ，即， i COL_A中存在的值不應該出現在j COL_B中。

預期輸出應該是，

diff
+---+-----+
| ID|COL_A|
+---+-----+
|  1|  123|
|  4|  678|
+---+-----+

這是我的代碼

common = i.join(j.withColumnRenamed('COL_B', 'COL_A'), ['COL_A'], 'leftsemi')
diff = i.subtract(common)
diff.show()

但是輸出錯誤，

diff
+---+-----+
| ID|COL_A|
+---+-----+
|  2|  456|
|  1|  123|
|  4|  678|
|  3|  111|
+---+-----+

我在這里做錯了嗎？ 提前致謝。

Answer 1

嘗試：

left_join = i.join(j, j.COL_B == i.COL_A,how='left')
left_join.filter(left_join.COL_A.isNull()).show()

如果您將列名作為參數，您可以這樣做：

left_join = i.join(j, j[colb] == i[cola],how='left')
left_join.filter(left_join[cola].isNull()).show()

根據列減去 2 個 pyspark 數據幀

問題描述

1 個解決方案

解決方案1
5 已采納 2018-11-15 12:09:22

根據列減去 2 個 pyspark 數據幀

問題描述

1 個解決方案

解決方案1 5 已采納 2018-11-15 12:09:22

解決方案1
5 已采納 2018-11-15 12:09:22