Spark-Scala：從列數據框中選擇不同的數組，而忽略順序

Question

我一直在思考下一個問題，但尚未解決：我有一個只有一列A的數據框df ，這些元素具有dataType Array[String] 。 我正在嘗試獲取A所有不同數組，而不是在數組中導入字符串的順序。

例如，如果數據框如下：

df.select（ “A”）。節目（）

+--------+
|A       |
+--------+
|[a,b,c] |
|[d,e]   |
|[f]     |
|[e,d]   |
|[c,a,b] |
+--------+

我想獲取數據框

+--------+
|[a,b,c] |
|[d,e]   |
|[f]     |
+--------+

我試圖做一個distinct（），dropDuplicates（）和其他函數，但是它不起作用。

我將不勝感激任何幫助。 先感謝您。

Answer 1

您可以使用collect_list函數收集該column所有arrays ，然后使用udf函數對單個數組進行排序，最后返回所收集列表的distinct數組。 最后，您可以使用explode函數將收集的不同數組分布到單獨的rows

import org.apache.spark.sql.functions._
def distinctCollectUDF = udf((a: mutable.WrappedArray[mutable.WrappedArray[String]]) => a.map(array => array.sorted).distinct)
df.select(distinctCollectUDF(collect_list("A")).as("A")).withColumn("A", explode($"A")).show(false)

您應該得到想要的結果。

Answer 2

您可以嘗試使用contains方法。

Spark-Scala：從列數據框中選擇不同的數組，而忽略順序

問題描述

2 個解決方案

解決方案1
1 已采納 2017-11-04 04:22:47

解決方案2
0 2017-11-03 19:34:55

Spark-Scala：從列數據框中選擇不同的數組，而忽略順序

問題描述

2 個解決方案

解決方案1 1 已采納 2017-11-04 04:22:47

解決方案2 0 2017-11-03 19:34:55

解決方案1
1 已采納 2017-11-04 04:22:47

解決方案2
0 2017-11-03 19:34:55