Spark SQL 中 Spark Dataframe 的 dropDuplicates 等效於什么？

Question

我在 Spark (3.0/3.1) 中有一些這樣寫的代碼：

foo.join(bar, Seq("col1","col2","col3"),"inner").dropDuplicates("col1","col2")

其中foo和bar是兩個通用數據框。

它如何轉換為 Spark SQL？ 我找不到與dropDuplicates等效的定義：

select distinct(col1, col2), *....

似乎是不同的東西。 任何想法？

Answer 1

您可以使用排名 function - row_number()。

val spark = SparkSession.builder().master("local[*]").getOrCreate()
spark.sparkContext.setLogLevel("ERROR")
import spark.implicits._

val df = List((1, 2, 3), (1, 2, 4), (1, 4, 6)).toDF("col1", "col2", "col3")

df.dropDuplicates("col1", "col2").show()
/*
+----+----+----+
|col1|col2|col3|
+----+----+----+
|   1|   2|   3|
|   1|   4|   6|
+----+----+----+*/

df.createOrReplaceTempView("table")
spark.sql(
    """
      |select col1, col2, col3 from (
      |   select *, row_number() over (partition by col1, col2 order by col1, col2) as rn from table)
      |   where rn = 1
      |""".stripMargin).show()
/*
+----+----+----+
|col1|col2|col3|
+----+----+----+
|   1|   2|   3|
|   1|   4|   6|
+----+----+----+*/

Spark SQL 中 Spark Dataframe 的 dropDuplicates 等效於什么？

問題描述

1 個解決方案

解決方案1
2 已采納 2021-08-19 13:22:30

Spark SQL 中 Spark Dataframe 的 dropDuplicates 等效於什么？

問題描述

1 個解決方案

解決方案1 2 已采納 2021-08-19 13:22:30

解決方案1
2 已采納 2021-08-19 13:22:30