簡體 English 中英

Spark 數據幀刪除重復項

[英]Spark dataframe drop duplicates

原文 2016-06-02 07:24:06 8 1 scala/ apache-spark/ dataframe/ duplicates

是否有可能告訴 spark drop 重復項刪除第二次出現而不是第一次出現？

scala> df.show()
+-----------+
|         _1|
+-----------+
|1 2 3 4 5 6|
|9 4 5 8 7 7|
|1 2 3 4 5 6|
+-----------+


scala> val newDf = df.dropDuplicates()
newDf: org.apache.spark.sql.DataFrame = [_1: string]

scala> newDf.show()
+-----------+                                                                   
|         _1|
+-----------+
|9 4 5 8 7 7|
|1 2 3 4 5 6|
+-----------+

1 個解決方案

對行進行排名/索引，具有相同的值，然后刪除索引/排名 > 1 的所有記錄的條目。

在 spark 中刪除除 null 之外的重復項

[英]Drop duplicates except null in spark

從Spark中的元組Dateset刪除重復項

[英]Drop duplicates from tuple Dateset in Spark

刪除Spark DataFrame的第一行

[英]Drop first row of Spark DataFrame

Spark DataFrame - 從列中刪除空值

[英]Spark DataFrame - drop null values from column

從Spark中的單個數據框中刪除Column的列表

[英]Drop list of Column from a single dataframe in spark

將 smail Dataframe 與大型 spark scala 連接起來，通過特征選擇刪除重復項

[英]Join smail Dataframe with large in spark scala, removing duplicates with feature selection

如何在數據框中刪除重復列，同時保留唯一列，包括唯一重復列中的一列

[英]How to Drop a Duplicates Column in dataframe while retaining the Unique Column including the only one column among duplicates

Spark Scala - 從 dataframe 中的數組中刪除第一個元素

[英]Spark Scala - drop the first element from the array in dataframe

使用 spark-scala 刪除數據幀的最后一列

[英]drop last column of a dataframe using spark-scala

如何從 spark dataframe 中刪除特定列，然后刪除 select 所有列

[英]How to drop specific column and then select all columns from spark dataframe

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 在 spark 中刪除除 null 之外的重復項從Spark中的元組Dateset刪除重復項刪除Spark DataFrame的第一行 Spark DataFrame - 從列中刪除空值從Spark中的單個數據框中刪除Column的列表將 smail Dataframe 與大型 spark scala 連接起來，通過特征選擇刪除重復項如何在數據框中刪除重復列，同時保留唯一列，包括唯一重復列中的一列 Spark Scala - 從 dataframe 中的數組中刪除第一個元素使用 spark-scala 刪除數據幀的最后一列如何從 spark dataframe 中刪除特定列，然后刪除 select 所有列

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM