[英]Grouping by key with Apache Spark but want to apply contcat between values instead of using an aggregate function
我正在學習Spark,並且想要執行以下任務:我想使用group by
但是下面顯示的分組條件是不同的,並且在Spark中並不為人所知,我們將不勝感激。
我有一個RDD[String,String]
和數據->
8 kshitij
8 vini
8 mohan
8 guru
5 aashish
5 aakash
5 ram
我想將其轉換為RDD[String,Set[String]]
->
8 Set[kshitij, vini, mohan, guru]
5 Set[aashish, aakash, ram]
正如user52045在評論中所說,您可以只使用groupByKey
,這將導致RDD[String, Iterable[String]]
。 這是一部分RDDPairFunctions
可通過任何隱式轉換Tuple2
。
唯一懸而未決的問題是你是否真行與Iterable
,或者如果它是一個Set
,這需要調用mapValues的額外步驟,或通過一些定制aggregateByKey
(如果你想一次過)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.