簡體   English   中英

有條件地加入並映射2個RDD

[英]Join and map 2 RDDs conditionally

我有2個需要加入的RDD

val rdd1 = RDD[(v_id, inputObject1)]

其中v_id是唯一ID

和inputObject1有以下字段

g_id, p_id, timestamp=t1

現在我有另一個RDD

val rdd2 = RDD[(g_id, inputObject2)]

其中inputObject2具有以下字段

p_id, timestamp=t2, e_id

現在我想在以下條件下加入這兩個RDD

  • 如果g_id和p_id相同且| t1-t2 | <30分鍾
  • 否則,如果g_id相同且| t1 - t2 | <30分鍾

因此,如果不滿足第一個條件,則第二個條件是回退。 我的最終輸出應該是這個

val resuldRDD = RDD[(v_id, inputObject11)]

其中inputObject11 = inputObject1 +如果滿足條件,則從第二個RDD添加e_id。

所以領域將是

g_id, p_id, e_id, timestamp=t1

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM