簡體   English   中英

scala spark rdd引導具有相同ID的兩個表

[英]scala spark rdd joing two tables with the same id

我有以下rdds:

case class Rating(user_ID: Integer, movie_ID: Integer, rating: Integer, timestamp: String)
case class Movie(movie_ID: Integer, title: String, genre: String)

我將他們加入scala,例如:

val m = datamovie.keyBy(_.movie_ID)
val r = data.keyBy(_.movie_ID)
val mr = m.join(r)  

我得到了類似RDD[(Int, (Movie, Rating))]結果,例如RDD[(Int, (Movie, Rating))]如何打印評級為5的電影的圖塊。 我不太確定如何使用通過聯接創建的新rdd!

將它們轉換為spark數據框並執行聯接。 您是否要保留RDD的特定原因?

val m = datamovie.toDF
val r = data.toDF
val mr = m.join(r, Seq("movie_id"), "left").where($"rating" === "5").select($"title")

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM