如何使用Spark Dataset API匯總鍵列表？

Question

使用Spark 2.x ，從這樣的Dataset ：

|keyword    |url
|A1         |url1
|A1         |url2
|A1         |url3
|A1         |url4
|A2         |url1
|A2         |url2
|A2         |url3

我如何獲得：

|keyword    |url
|A1         |url1,url2,url3,url4
|A2         |url1,url2,url3

Answer 1

嘗試這個

import org.apache.spark.sql.functions._
val df = myDataset.groupBy("keyword").agg(collect_list("url"))

將agg()與GroupBy()將使您可以在agg()下執行所需的操作，您將獲得諸如collect_set() ， sum()等方法。

Answer 2

除了接受的答案，如果您希望以lambda方式執行相同的操作

        baseDS.rdd.filter { x => !x.getAs[String](0).contains("keyword") }.map { x =>
      (x.get(0), x.get(1))
    }.groupByKey().foreach(println(_))

注意：可以使用架構定義跳過filter（）操作

結果

（A1，CompactBuffer（url1，url2，url3，url4））

（A2，CompactBuffer（url1，url2，url3））

如何使用Spark Dataset API匯總鍵列表？

問題描述

2 個解決方案

解決方案1
4 已采納 2017-03-22 09:53:40

解決方案2
0 2017-03-22 10:16:27

如何使用Spark Dataset API匯總鍵列表？

問題描述

2 個解決方案

解決方案1 4 已采納 2017-03-22 09:53:40

解決方案2 0 2017-03-22 10:16:27

解決方案1
4 已采納 2017-03-22 09:53:40

解決方案2
0 2017-03-22 10:16:27