[英]Grouping by key with Apache Spark but want to apply contcat between values instead of using an aggregate function
我正在学习Spark,并且想要执行以下任务:我想使用group by
但是下面显示的分组条件是不同的,并且在Spark中并不为人所知,我们将不胜感激。
我有一个RDD[String,String]
和数据->
8 kshitij
8 vini
8 mohan
8 guru
5 aashish
5 aakash
5 ram
我想将其转换为RDD[String,Set[String]]
->
8 Set[kshitij, vini, mohan, guru]
5 Set[aashish, aakash, ram]
正如user52045在评论中所说,您可以只使用groupByKey
,这将导致RDD[String, Iterable[String]]
。 这是一部分RDDPairFunctions
可通过任何隐式转换Tuple2
。
唯一悬而未决的问题是你是否真行与Iterable
,或者如果它是一个Set
,这需要调用mapValues的额外步骤,或通过一些定制aggregateByKey
(如果你想一次过)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.