如何在Spark 2.3.0中減去兩個保留重復項的DataFrame

Question

Spark 2.4.0引入了新的便捷功能， exceptAll允許減去兩個數據幀，並保持重復。

例

  val df1 = Seq(
    ("a", 1L),
    ("a", 1L),
    ("a", 1L),
    ("b", 2L)
  ).toDF("id", "value")
  val df2 = Seq(
    ("a", 1L),
    ("b", 2L)
  ).toDF("id", "value")

df1.exceptAll(df2).collect()
// will return

Seq(("a", 1L),("a", 1L))

但是我只能使用Spark 2.3.0。

僅使用Spark 2.3.0中的函數來實現此目的的最佳方法是什么？

Answer 1

一種選擇是使用row_number生成序列號列，並在left join row_number上使用它來獲取缺少的行。

這里顯示PySpark解決方案。

 from pyspark.sql.functions import row_number
 from pyspark.sql import Window
 w1 = Window.partitionBy(df1.id).orderBy(df1.value)
 w2 = Window.partitionBy(df2.id).orderBy(df2.value)
 df1 = df1.withColumn("rnum", row_number().over(w1))
 df2 = df2.withColumn("rnum", row_number().over(w2))
 res_like_exceptAll = df1.join(df2, (df1.id==df2.id) & (df1.val == df2.val) & (df1.rnum == df2.rnum), 'left') \
                         .filter(df2.id.isNull()) \ #Identifies missing rows 
                         .select(df1.id,df1.value)
 res_like_exceptAll.show()

如何在Spark 2.3.0中減去兩個保留重復項的DataFrame

問題描述

1 個解決方案

解決方案1
1 已采納 2019-04-26 19:32:50

如何在Spark 2.3.0中減去兩個保留重復項的DataFrame

問題描述

1 個解決方案

解決方案1 1 已采納 2019-04-26 19:32:50

解決方案1
1 已采納 2019-04-26 19:32:50