如何进行 groupby 排名并将其作为列添加到 spark scala 中的现有 dataframe？

Question

目前这是我在做什么：

  val new_df= old_df.groupBy("column1").count().withColumnRenamed("count","column1_count")

  val new_df_rankings = new_df.withColumn(
    "column1_count_rank",
    dense_rank()
      .over(
        Window.orderBy($"column1_count".desc))).select("column1_count","column1_count_rank")

但实际上我想要做的就是在原始 df (old_df) 中添加一个名为“column1_count_rank”的列，而无需经过所有这些中间步骤并重新合并。

有没有办法做到这一点？

谢谢，祝你有美好的一天！

Answer 1

当你应用聚合时，会有一个计算结果，它将创建新的 dataframe。你能给出一些示例输入和 output 示例吗

old_df.groupBy("column1").agg(count("*").alias("column1_count")).withColumn("column1_count_rank",dense_rank().over(Window.orderBy($"column1_count".desc))).select("column1_count","column1_count_rank")

如何进行 groupby 排名并将其作为列添加到 spark scala 中的现有 dataframe？

问题描述

1 个解决方案

解决方案1
0 2020-10-26 17:18:34

如何进行 groupby 排名并将其作为列添加到 spark scala 中的现有 dataframe？

问题描述

1 个解决方案

解决方案1 0 2020-10-26 17:18:34

解决方案1
0 2020-10-26 17:18:34