PySpark：如何根據公共列對 dataframe 行進行分組或折疊

Question

我有一個 PySpark dataframe 類似於：

  company     date     value  category
    ------------------------------------
      xyz    31-12-2020    12      
      xyz                          SAF
      abc                  11      
      abc    30-06-2020            AF
      jfk                          SAF
      jfk    30-09-2020    13

我正在嘗試按以下方式對其進行分組：

  company     date     value  category
    ------------------------------------
      xyz    31-12-2020    12      SAF                                     
      abc    30-06-2020    11      AF
      jfk    30-09-2020    13      SAF

我已經嘗試過：

df = df.groupBy("company",
                 "date",
                 "value",
                 "category").max()

但結果不是預期的，考慮到我不想對任何字段進行求和或匯總，只是試圖根據公司列“折疊”它們。

Answer 1

假設您在 dataframe 中的缺失值是Null ，您可以使用.max() ，只需將其更改為：

df.groupby("company").agg(func.max("date").alias("date"), func.max("value").alias("value"), func.max("category").alias("category")).show(10)

PySpark：如何根據公共列對 dataframe 行進行分組或折疊

問題描述

1 個解決方案

解決方案1
0 已采納 2022-08-24 16:37:26

PySpark：如何根據公共列對 dataframe 行進行分組或折疊

問題描述

1 個解決方案

解決方案1 0 已采納 2022-08-24 16:37:26

解決方案1
0 已采納 2022-08-24 16:37:26