如何在 Spark 窗口函数中以降序使用 orderby()？

Question

我需要一个窗口函数，它按某些键（=列名）进行分区，按另一个列名排序并返回排名最高的行。

这适用于升序：

def getTopX(df: DataFrame, top_x: String, top_key: String, top_value:String): DataFrame ={
    val top_keys: List[String] = top_key.split(", ").map(_.trim).toList
    val w = Window.partitionBy(top_keys(1),top_keys.drop(1):_*)
       .orderBy(top_value)
    val rankCondition = "rn < "+top_x.toString
    val dfTop = df.withColumn("rn",row_number().over(w))
      .where(rankCondition).drop("rn")
  return dfTop
}

但是当我尝试在第 4 行将其更改为orderBy(desc(top_value))或orderBy(top_value.desc)时，出现语法错误。 这里的正确语法是什么？

Answer 1

orderBy有两种版本，一种适用于字符串，另一种适用于Column对象 ( API )。 您的代码使用的是第一个版本，该版本不允许更改排序顺序。 您需要切换到列版本，然后调用desc方法，例如myCol.desc 。

现在，我们进入 API 设计领域。 传递Column参数的好处是你有更多的灵活性，例如，你可以使用表达式等。如果你想维护一个接受字符串而不是Column的 API，你需要将字符串转换为列。 有很多方法可以做到这一点，最简单的方法是使用org.apache.spark.sql.functions.col(myColName) 。

把它们放在一起，我们得到

.orderBy(org.apache.spark.sql.functions.col(top_value).desc)

Answer 2

例如，如果我们需要在 Window 函数中按降序排列名为Date的列，请在列名前使用$符号，这将使我们能够使用asc或desc语法。

Window.orderBy($"Date".desc)

在双引号中指定列名后，给出.desc将按降序排序。

Answer 3

专栏

col = new Column("ts")
col = col.desc()
WindowSpec w = Window.partitionBy("col1", "col2").orderBy(col)

如何在 Spark 窗口函数中以降序使用 orderby()？

问题描述

3 个解决方案

解决方案1
50 已采纳 2016-07-25 18:44:27

解决方案2
8 2019-03-19 17:45:43

解决方案3
1 2019-08-16 14:16:53

如何在 Spark 窗口函数中以降序使用 orderby()？

问题描述

3 个解决方案

解决方案1 50 已采纳 2016-07-25 18:44:27

解决方案2 8 2019-03-19 17:45:43

解决方案3 1 2019-08-16 14:16:53

解决方案1
50 已采纳 2016-07-25 18:44:27

解决方案2
8 2019-03-19 17:45:43

解决方案3
1 2019-08-16 14:16:53