如何选择RDD中每个键时间最久的数据？

Question

我有一个带有两个变量ID和time的RDD。 time采用datetime.datetime格式。 这是RDD数据的头部扫描：

 [[41186, datetime.datetime(2014, 3, 1, 20, 48, 5, 630000)],
 [32036, datetime.datetime(2014, 3, 2, 0, 25, 41, 950000)],
 [41186, datetime.datetime(2014, 3, 2, 0, 31, 29, 380000)],
 [40479, datetime.datetime(2014, 3, 2, 0, 39, 6, 800000)],
 [4598, datetime.datetime(2014, 3, 2, 1, 48, 47, 430000)]]

一个ID将在数据文件中以不同的日期时间出现多次，我只想选择时间最远的每个ID 。

例如，在上面的示例数据中，我只需要选择：

 [[41186, datetime.datetime(2014, 3, 1, 20, 48, 5, 630000)],
 [32036, datetime.datetime(2014, 3, 2, 0, 25, 41, 950000)],
 [40479, datetime.datetime(2014, 3, 2, 0, 39, 6, 800000)],
 [4598, datetime.datetime(2014, 3, 2, 1, 48, 47, 430000)]]

如何编写查询以获取此输出？ 谢谢。

Answer 1

使用groupByKey并应用min ：

print(rdd.groupByKey().mapValues(min).collect())
#[(41186, datetime.datetime(2014, 3, 1, 20, 48, 5, 630000)),
# (32036, datetime.datetime(2014, 3, 2, 0, 25, 41, 950000)),
# (4598, datetime.datetime(2014, 3, 2, 1, 48, 47, 430000)),
# (40479, datetime.datetime(2014, 3, 2, 0, 39, 6, 800000))]

如何选择RDD中每个键时间最久的数据？

问题描述

1 个解决方案

解决方案1
2 已采纳 2019-08-08 18:17:30

如何选择RDD中每个键时间最久的数据？

问题描述

1 个解决方案

解决方案1 2 已采纳 2019-08-08 18:17:30

解决方案1
2 已采纳 2019-08-08 18:17:30