繁体   English   中英

有条件地加入并映射2个RDD

[英]Join and map 2 RDDs conditionally

我有2个需要加入的RDD

val rdd1 = RDD[(v_id, inputObject1)]

其中v_id是唯一ID

和inputObject1有以下字段

g_id, p_id, timestamp=t1

现在我有另一个RDD

val rdd2 = RDD[(g_id, inputObject2)]

其中inputObject2具有以下字段

p_id, timestamp=t2, e_id

现在我想在以下条件下加入这两个RDD

  • 如果g_id和p_id相同且| t1-t2 | <30分钟
  • 否则,如果g_id相同且| t1 - t2 | <30分钟

因此,如果不满足第一个条件,则第二个条件是回退。 我的最终输出应该是这个

val resuldRDD = RDD[(v_id, inputObject11)]

其中inputObject11 = inputObject1 +如果满足条件,则从第二个RDD添加e_id。

所以领域将是

g_id, p_id, e_id, timestamp=t1

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM