pyspark中groupBy之后的列別名

Question

我需要下一行中的結果數據框，以便在 groupBy 之后為 max('diff') 列使用別名“maxDiff”。 但是，下面的行不會進行任何更改，也不會引發錯誤。

 grpdf = joined_df.groupBy(temp1.datestamp).max('diff').alias("maxDiff")

Answer 1

您可以使用agg而不是調用max方法：

from pyspark.sql.functions import max

joined_df.groupBy(temp1.datestamp).agg(max("diff").alias("maxDiff"))

同樣在 Scala 中

import org.apache.spark.sql.functions.max

joined_df.groupBy($"datestamp").agg(max("diff").alias("maxDiff"))

或者

joined_df.groupBy($"datestamp").agg(max("diff").as("maxDiff"))

Answer 2

這是因為您正在為整個DataFrame對象設置別名，而不是Column 。 以下是如何僅為Column設置別名的示例：

import pyspark.sql.functions as func

grpdf = joined_df \
    .groupBy(temp1.datestamp) \
    .max('diff') \
    .select(func.col("max(diff)").alias("maxDiff"))

Answer 3

除了這里已有的答案之外，如果您知道聚合列的名稱，以下也是方便的方法，您不必從pyspark.sql.functions導入：

1

grouped_df = joined_df.groupBy(temp1.datestamp) \
                      .max('diff') \
                      .selectExpr('max(diff) AS maxDiff')

有關.selectExpr()信息，請參閱文檔

2

grouped_df = joined_df.groupBy(temp1.datestamp) \
                      .max('diff') \
                      .withColumnRenamed('max(diff)', 'maxDiff')

有關.withColumnRenamed()信息，請參閱文檔

這里的答案更詳細： https : //stackoverflow.com/a/34077809

Answer 4

您可以使用。

grouped_df = grpdf.select(col("max(diff)") as "maxdiff",col("sum(DIFF)") as "sumdiff").show()

pyspark中groupBy之后的列別名

問題描述

4 個解決方案

解決方案1
83 已采納 2015-11-04 14:14:40

解決方案2
39 2015-11-04 08:39:56

解決方案3
7 2017-10-10 23:26:00

解決方案4
1 2020-05-08 06:54:57

pyspark中groupBy之后的列別名

問題描述

4 個解決方案

解決方案1 83 已采納 2015-11-04 14:14:40

解決方案2 39 2015-11-04 08:39:56

解決方案3 7 2017-10-10 23:26:00

解決方案4 1 2020-05-08 06:54:57

解決方案1
83 已采納 2015-11-04 14:14:40

解決方案2
39 2015-11-04 08:39:56

解決方案3
7 2017-10-10 23:26:00

解決方案4
1 2020-05-08 06:54:57