如何在 spark scala 中加入 2 rdd

Question

我有 2 個 RDD，如下所示

val rdd1 = spark.sparkContext.parallelize(Seq((123, List(("000000011119",20),("000000011120",30),("000000011121",50))),(234, List(("000000011119",20),("000000011120",30),("000000011121",50)))))
val rdd2 = spark.sparkContext.parallelize(Seq((123, List("000000011119","000000011120")),(234, List("000000011121","000000011120"))))

我想根據 rdd2 中的密鑰對在 rdd1 中執行值的加法。

所需輸出：

RDD[(123,50),(234,80)]

任何幫助將不勝感激。

Answer 1

實際上，這是對行的第一個元素和每個內容的第一個元素的連接。

所以我會把它分解成多行並以這種方式加入

val flat1 = rdd1.flatMap(r => r._2.map(e => ((r._1, e._1), e._2))) // looks like ((234,000000011119),20)
val flat2 = rdd2.flatMap(r => r._2.map(e => ((r._1, e), true))) // looks like ((234,000000011121),true)

val res =  flat1.join(flat2)
  .map(r => (r._1._1, r._2._1))  // looks like (123, 30)
  .reduceByKey(_ + _)  // total each key group

結果帶有.foreach(println)

scala> :pas
// Entering paste mode (ctrl-D to finish)

flat1.join(flat2)
  .map(r => (r._1._1, r._2._1))  // looks like (123, 30)
  .reduceByKey(_ + _)  // total each key group
  .foreach(println)

// Exiting paste mode, now interpreting.

(123,50)
(234,80)

像往常一樣，這些東西使用 Dataset 會簡單得多，所以這將是我對未來的建議。

如何在 spark scala 中加入 2 rdd

問題描述

1 個解決方案

解決方案1
1 已采納 2021-06-25 13:27:56

如何在 spark scala 中加入 2 rdd

問題描述

1 個解決方案

解決方案1 1 已采納 2021-06-25 13:27:56

解決方案1
1 已采納 2021-06-25 13:27:56