繁体   English   中英

使用Apache Spark按键分组,但希望在值之间应用contcat而不是使用聚合函数

[英]Grouping by key with Apache Spark but want to apply contcat between values instead of using an aggregate function

我正在学习Spark,并且想要执行以下任务:我想使用group by但是下面显示的分组条件是不同的,并且在Spark中并不为人所知,我们将不胜感激。

我有一个RDD[String,String]和数据->

8 kshitij

8 vini

8 mohan

8 guru

5 aashish

5 aakash

5 ram

我想将其转换为RDD[String,Set[String]] ->

8 Set[kshitij, vini, mohan, guru]

5 Set[aashish, aakash, ram]

正如user52045在评论中所说,您可以只使用groupByKey ,这将导致RDD[String, Iterable[String]] 这是一部分RDDPairFunctions可通过任何隐式转换Tuple2

唯一悬而未决的问题是你是否真行与Iterable ,或者如果它是一个Set ,这需要调用mapValues的额外步骤,或通过一些定制aggregateByKey (如果你想一次过)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM