如何使用spark从数据框中找到最大长度的唯一行？

Question

我试图在 Spark 数据帧中找到具有最大长度值的唯一行（基于 id）。 每个 Column 都有一个字符串类型的值。

数据框是这样的：

+-----+---+----+---+---+
|id | A | B  | C  | D  |
+-----+---+----+---+---+
|1 |toto|tata|titi|    |
|1 |toto|tata|titi|tutu|
|2 |bla |blo |   |     |
|3 |b   | c  |   |  d  |
|3 |b   | c  |  a |  d |
+-----+---+----+---+---+

期望是：

+-----+---+----+---+---+
|id | A | B  | C  | D  |
+-----+---+----+---+---+
|1 |toto|tata|titi|tutu|
|2 |bla |blo |   |     |
|3 |b   | c  |  a |  d |
+-----+---+----+---+---+

我不知道如何使用 Spark 轻松做到这一点......提前致谢

Answer 1

注意：此方法负责向DataFrame添加/删除任何列，无需更改代码。

可以通过在连接后首先查找所有列的长度（第一列除外），然后过滤除具有最大长度的行之外的所有其他行来完成。

import org.apache.spark.sql.expressions._
import org.apache.spark.sql.functions._

val output = input.withColumn("rowLength", length(concat(input.columns.toList.drop(1).map(col): _*)))
  .withColumn("maxLength", max($"rowLength").over(Window.partitionBy($"id")))
  .filter($"rowLength" === $"maxLength")
  .drop("rowLength", "maxLength")

Answer 2

scala> df.show
+---+----+----+----+----+
| id|   A|   B|   C|   D|
+---+----+----+----+----+
|  1|toto|tata|titi|    |
|  1|toto|tata|titi|tutu|
|  2| bla| blo|    |    |
|  3|   b|   c|    |   d|
|  3|   b|   c|   a|   d|
+---+----+----+----+----+


scala> df.groupBy("id").agg(concat_ws("",collect_set(col("A"))).alias("A"),concat_ws("",collect_set(col("B"))).alias("B"),concat_ws("",collect_set(col("C"))).alias("C"),concat_ws("",collect_set(col("D"))).alias("D")).show
+---+----+----+----+----+
| id|   A|   B|   C|   D|
+---+----+----+----+----+
|  1|toto|tata|titi|tutu|
|  2| bla| blo|    |    |
|  3|   b|   c|   a|   d|
+---+----+----+----+----+

如何使用spark从数据框中找到最大长度的唯一行？

问题描述

2 个解决方案

解决方案1
1 已采纳 2019-12-26 13:34:02

解决方案2
0 2019-12-26 13:20:00

如何使用spark从数据框中找到最大长度的唯一行？

问题描述

2 个解决方案

解决方案1 1 已采纳 2019-12-26 13:34:02

解决方案2 0 2019-12-26 13:20:00

解决方案1
1 已采纳 2019-12-26 13:34:02

解决方案2
0 2019-12-26 13:20:00