如何在spark數據集和drop元素上進行嵌套迭代

Question

嗨，我有一個Track.class的數據集，我想合並在同一時間間隔內的所有軌道，例如5分鍾。即，任何一條在5分鍾內結束的軌道之后開始的軌道都將是同一軌道。它看起來像融合任務。

我的輸入：

+----------+---------------------------------------------+
|  trackId |  start_time    |  end_time                  |
+-----+--------------------------------------------------+
|  1       | 12:00:00       |   12:04:00                 |
+----------+---------------------------------------------+
|  2       | 12:05:00       |   12:08:00                 |  
+----------+---------------------------------------------+
|  3       | 12:20:00       |   12:22:00                 | 
+----------+---------------------------------------------+

輸出：（trackId：1,2被合並，因為每個開始和結束的差異在5分鍾之內）

+----------+----------------+----------------------------+
|  trackId |  start_time    |  end_time                  |
+-----+--------------------------------------------------+
|  1       | 12:00:00       |  12:08:00                  |
+----------+---------------------------------------------+
|  3       | 12:20:00       |   12:22:00                 |
+----------+----------------+----------------------------+

那我該怎么辦呢？

Answer 1

您沒有給出確切的架構，但實際上您想使用Spark的window函數。 就像是

df.groupBy(window(df.col("time"),"50 seconds").agg(first("id").as("id"))

Answer 2

我可以使用Lead函數在列中追加下一個開始時間的值，然后減去當前結束日期和下一個開始日期，僅此而已。

> dataset.withColumn("lead",lead(dataset.col(start_date),1).over(orderBy(start_date)));

+----------+---------------------------------------------+
|  trackId |  start_time    |  end_time   |      lead    |
+-----+--------------------------------------------------+
|  1       | 12:00:00       |   12:04:00  |     12:05:00 |
+----------+---------------------------------------------+
|  2       | 12:05:00       |   12:08:00  |  12:20:00    |  
+----------+---------------------------------------------+
|  3       | 12:20:00       |   12:22:00  |     null     | 
+----------+---------------------------------------------+

如何在spark數據集和drop元素上進行嵌套迭代

問題描述

2 個解決方案

解決方案1
1 2018-04-13 08:16:53

解決方案2
0 2018-04-25 11:39:29

如何在spark數據集和drop元素上進行嵌套迭代

問題描述

2 個解決方案

解決方案1 1 2018-04-13 08:16:53

解決方案2 0 2018-04-25 11:39:29

解決方案1
1 2018-04-13 08:16:53

解決方案2
0 2018-04-25 11:39:29