scala spark rdd引導具有相同ID的兩個表

Question

我有以下rdds：

case class Rating(user_ID: Integer, movie_ID: Integer, rating: Integer, timestamp: String)
case class Movie(movie_ID: Integer, title: String, genre: String)

我將他們加入scala，例如：

val m = datamovie.keyBy(_.movie_ID)
val r = data.keyBy(_.movie_ID)
val mr = m.join(r)

我得到了類似RDD[(Int, (Movie, Rating))]結果，例如RDD[(Int, (Movie, Rating))]如何打印評級為5的電影的圖塊。 我不太確定如何使用通過聯接創建的新rdd！

Answer 1

將它們轉換為spark數據框並執行聯接。 您是否要保留RDD的特定原因？

val m = datamovie.toDF
val r = data.toDF
val mr = m.join(r, Seq("movie_id"), "left").where($"rating" === "5").select($"title")

scala spark rdd引導具有相同ID的兩個表

問題描述

1 個解決方案

解決方案1
1 已采納 2018-12-16 17:08:10

scala spark rdd引導具有相同ID的兩個表

問題描述

1 個解決方案

解決方案1 1 已采納 2018-12-16 17:08:10

解決方案1
1 已采納 2018-12-16 17:08:10