使用Apache Spark按键分组，但希望在值之间应用contcat而不是使用聚合函数

Question

我正在学习Spark，并且想要执行以下任务：我想使用group by但是下面显示的分组条件是不同的，并且在Spark中并不为人所知，我们将不胜感激。

我有一个RDD[String,String]和数据->

8 kshitij

8 vini

8 mohan

8 guru

5 aashish

5 aakash

5 ram

我想将其转换为RDD[String,Set[String]] ->

8 Set[kshitij, vini, mohan, guru]

5 Set[aashish, aakash, ram]

Answer 1

正如user52045在评论中所说，您可以只使用groupByKey ，这将导致RDD[String, Iterable[String]] 。 这是一部分RDDPairFunctions可通过任何隐式转换Tuple2 。

唯一悬而未决的问题是你是否真行与Iterable ，或者如果它是一个Set ，这需要调用mapValues的额外步骤，或通过一些定制aggregateByKey （如果你想一次过）