使用Apache Spark按鍵分組，但希望在值之間應用contcat而不是使用聚合函數

Question

我正在學習Spark，並且想要執行以下任務：我想使用group by但是下面顯示的分組條件是不同的，並且在Spark中並不為人所知，我們將不勝感激。

我有一個RDD[String,String]和數據->

8 kshitij

8 vini

8 mohan

8 guru

5 aashish

5 aakash

5 ram

我想將其轉換為RDD[String,Set[String]] ->

8 Set[kshitij, vini, mohan, guru]

5 Set[aashish, aakash, ram]

Answer 1

正如user52045在評論中所說，您可以只使用groupByKey ，這將導致RDD[String, Iterable[String]] 。 這是一部分RDDPairFunctions可通過任何隱式轉換Tuple2 。

唯一懸而未決的問題是你是否真行與Iterable ，或者如果它是一個Set ，這需要調用mapValues的額外步驟，或通過一些定制aggregateByKey （如果你想一次過）