簡體   English   中英

Spark 數據幀刪除重復項

[英]Spark dataframe drop duplicates

是否有可能告訴 spark drop 重復項刪除第二次出現而不是第一次出現?

scala> df.show()
+-----------+
|         _1|
+-----------+
|1 2 3 4 5 6|
|9 4 5 8 7 7|
|1 2 3 4 5 6|
+-----------+


scala> val newDf = df.dropDuplicates()
newDf: org.apache.spark.sql.DataFrame = [_1: string]

scala> newDf.show()
+-----------+                                                                   
|         _1|
+-----------+
|9 4 5 8 7 7|
|1 2 3 4 5 6|
+-----------+

對行進行排名/索引,具有相同的值,然后刪除索引/排名 > 1 的所有記錄的條目。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM