根据另一列中的时间戳过滤行Spark Scala

Question

假设我在Spark Scala中具有以下数据框：

 +--------+--------------------+--------------------+
 |Index   |                Date|              Date_x|
 +--------+--------------------+--------------------+
 |       1|2018-01-31T20:33:...|2018-01-31T21:18:...|
 |       1|2018-01-31T20:35:...|2018-01-31T21:18:...|
 |       1|2018-01-31T21:04:...|2018-01-31T21:18:...|
 |       1|2018-01-31T21:05:...|2018-01-31T21:18:...|
 |       1|2018-01-31T21:15:...|2018-01-31T21:18:...|
 |       1|2018-01-31T21:16:...|2018-01-31T21:18:...|
 |       1|2018-01-31T21:19:...|2018-01-31T21:18:...|
 |       1|2018-01-31T21:20:...|2018-01-31T21:18:...|
 |       2|2018-01-31T19:43:...|2018-01-31T20:35:...|
 |       2|2018-01-31T19:44:...|2018-01-31T20:35:...|
 |       2|2018-01-31T20:36:...|2018-01-31T20:35:...|
 +--------+--------------------+--------------------+

我想删除每个索引的Date < Date_x的行，如下所示：

 +--------+--------------------+--------------------+
 |Index   |                Date|              Date_x|
 +--------+--------------------+--------------------+
 |       1|2018-01-31T21:19:...|2018-01-31T21:18:...|
 |       1|2018-01-31T21:20:...|2018-01-31T21:18:...|
 |       2|2018-01-31T20:36:...|2018-01-31T20:35:...|
 +--------+--------------------+--------------------+

我尝试通过使用monotonically_increasing_id()添加一列x_idx并为Date < Date_x每个Index获取min(x_idx) 。 这样一来，我就可以从不满足条件的数据框中删除行。 但这似乎对我不起作用。 我可能会错过对agg()工作原理的理解。 谢谢您的帮助！

  val test_df = df.withColumn("x_idx", monotonically_increasing_id())
  val newIdx = test_df
           .filter($"Date" > "Date_x")
           .groupBy($"Index")
           .agg(min($"x_idx"))
           .toDF("n_Index", "min_x_idx")

      newIdx.show

      +-------+--------+
      |n_Index|min_x_idx|
      +-------+--------+
      +-------+--------+

Answer 1

您忘了加$

.filter($"Date" > "Date_x")

所以正确的filter是

.filter($"Date" > $"Date_x")

您可以使用alias而不是调用toDF作为

val newIdx = test_df
  .filter($"Date" > $"Date_x")
  .groupBy($"Index".as("n_Index"))
  .agg(min($"x_idx").as("min_x_idx"))

你应该得到输出

+-------+---------+
|n_Index|min_x_idx|
+-------+---------+
|1      |6        |
|2      |10       |
+-------+---------+

Answer 2

筛选条件可能会筛选所有记录。 过滤记录后，请检查是否打印了数据框，并确保过滤器按预期工作。

 val newIdx = test_df
           .filter($"Date" > $"Date_x")
           .show

根据另一列中的时间戳过滤行Spark Scala

问题描述

2 个解决方案

解决方案1
1 已采纳 2018-03-18 15:07:46

解决方案2
0 2018-03-18 15:30:45

根据另一列中的时间戳过滤行Spark Scala

问题描述

2 个解决方案

解决方案1 1 已采纳 2018-03-18 15:07:46

解决方案2 0 2018-03-18 15:30:45

解决方案1
1 已采纳 2018-03-18 15:07:46

解决方案2
0 2018-03-18 15:30:45