在 RDD (Scala/Spark) 中對嵌套列表中的元素進行排序

Question

我正在嘗試對 RDD object 的每個嵌套列表中的元素進行排序，如下所示：

org.apache.spark.rdd.RDD[(Long, List[List[String]])]

未排序的示例如下：

(342, List(List([banana], [apple]), List([orange], [lemon])))
(342, List(List([coconut], [carrot]), List([watermelon], [kiwi])))
(794, List(List([strawberry], [carrot]), List([lemon], [orange])))

並希望 output 是這樣的（嵌套列表的內容按字母降序排序）：

(342, List(List([apple], [banana]), List([lemon], [orange])))
(342, List(List([carrot], [coconut]), List([kiwi], [watermelon])))
(794, List(List([orange], [strawberry]), List([carrot], [lemon])))

Answer 1

設法解決它執行以下操作（反向組結構和排序非嵌套列表（請注意，RDD 結構已更改 - 在這種情況下無關緊要）。

data.flatMap(x => x._2.map(i => (x._1, i))).mapValues(x => x.sorted)

在 RDD (Scala/Spark) 中對嵌套列表中的元素進行排序

問題描述

1 個解決方案

解決方案1
0 2021-04-30 14:06:51

在 RDD (Scala/Spark) 中對嵌套列表中的元素進行排序

問題描述

1 個解決方案

解決方案1 0 2021-04-30 14:06:51

解決方案1
0 2021-04-30 14:06:51