繁体   English   中英

Apache Spark 聚合:基于另一列值聚合列

[英]Apache spark aggregation: aggregate column based on another column value

我不确定我问这个问题是否正确,也许这就是到目前为止我没有找到正确答案的原因。 无论如何,如果它会重复,我会删除这个问题。

我有以下数据:

id | last_updated | count
__________________________
1  | 20190101     | 3
1  | 20190201     | 2
1  | 20190301     | 1 

我想按“id”列按此数据分组,从“last_updated”获取最大值,关于“count”列,我想保留“last_updated”具有最大值的行的值。 所以在这种情况下,结果应该是这样的:

id | last_updated | count
__________________________
1  | 20190301     | 1 

所以我想它会是这样的:

df
  .groupBy("id")
  .agg(max("last_updated"), ... ("count"))

是否有任何函数可用于根据“last_updated”列获取“计数”。

我正在使用火花 2.4.0。

谢谢你的帮助

你有两个选择,第一个更好,我的理解

选项 1对 ID 执行窗口函数,创建一个具有该窗口函数最大值的列。 然后选择所需列等于最大值的位置,最后删除该列并根据需要重命名最大列

val w  = Window.partitionBy("id")

df.withColumn("max", max("last_updated").over(w))
  .where("max = last_updated")
  .drop("last_updated")
  .withColumnRenamed("max", "last_updated")

选项 2

您可以在分组后与原始数据框执行连接

df.groupBy("id")
.agg(max("last_updated").as("last_updated"))
.join(df, Seq("id", "last_updated"))

快速示例

输入

df.show
+---+------------+-----+
| id|last_updated|count|
+---+------------+-----+
|  1|    20190101|    3|
|  1|    20190201|    2|
|  1|    20190301|    1|
+---+------------+-----+

输出选项 1

import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.functions

val w  = Window.partitionBy("id") 

df.withColumn("max", max("last_updated").over(w))
  .where("max = last_updated")
  .drop("last_updated")
  .withColumnRenamed("max", "last_updated")


+---+-----+------------+
| id|count|last_updated|
+---+-----+------------+
|  1|    1|    20190301|
+---+-----+------------+

选项 2

  df.groupBy("id")
      .agg(max("last_updated").as("last_updated")
      .join(df, Seq("id", "last_updated")).show


    +---+-----------------+----------+
    | id|     last_updated|    count |
    +---+-----------------+----------+
    |  1|         20190301|         1|
    +---+-----------------+----------+

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM