簡體   English   中英

使用Apache Spark按鍵分組,但希望在值之間應用contcat而不是使用聚合函數

[英]Grouping by key with Apache Spark but want to apply contcat between values instead of using an aggregate function

我正在學習Spark,並且想要執行以下任務:我想使用group by但是下面顯示的分組條件是不同的,並且在Spark中並不為人所知,我們將不勝感激。

我有一個RDD[String,String]和數據->

8 kshitij

8 vini

8 mohan

8 guru

5 aashish

5 aakash

5 ram

我想將其轉換為RDD[String,Set[String]] ->

8 Set[kshitij, vini, mohan, guru]

5 Set[aashish, aakash, ram]

正如user52045在評論中所說,您可以只使用groupByKey ,這將導致RDD[String, Iterable[String]] 這是一部分RDDPairFunctions可通過任何隱式轉換Tuple2

唯一懸而未決的問題是你是否真行與Iterable ,或者如果它是一個Set ,這需要調用mapValues的額外步驟,或通過一些定制aggregateByKey (如果你想一次過)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM