[英]scala spark rdd joing two tables with the same id
我有以下rdds:
case class Rating(user_ID: Integer, movie_ID: Integer, rating: Integer, timestamp: String)
case class Movie(movie_ID: Integer, title: String, genre: String)
我將他們加入scala,例如:
val m = datamovie.keyBy(_.movie_ID)
val r = data.keyBy(_.movie_ID)
val mr = m.join(r)
我得到了類似RDD[(Int, (Movie, Rating))]
結果,例如RDD[(Int, (Movie, Rating))]
如何打印評級為5的電影的圖塊。 我不太確定如何使用通過聯接創建的新rdd!
將它們轉換為spark數據框並執行聯接。 您是否要保留RDD的特定原因?
val m = datamovie.toDF
val r = data.toDF
val mr = m.join(r, Seq("movie_id"), "left").where($"rating" === "5").select($"title")
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.