如何使用pyspark數據框窗口功能

Question

我有一個如下所示的數據框

我想獲得一個數據框，它具有最新版本和最新日期。第一個過濾條件將是最新版本，然后是最新日期結果數據框應如下所示

我正在使用窗口函數來實現這一點。我寫了下面的一段代碼。

wind = Window.partitionBy("id")
data = data.withColumn("maxVersion", F.max("version").over(wind)) \
               .withColumn("maxDt", F.max("dt").over(wind)) \
               .where(F.col("version") == F.col("maxVersion")) \
               .where(F.col("maxDt") == F.col("dt")) \
               .drop(F.col("maxVersion")) \
               .drop(F.col("maxDt"))

我不確定我錯過了什么。我只得到一個 ID 為 100 的輸出。請幫我解決這個問題

Answer 1

正如您所提到的，您的操作中有一個順序：第一個版本，然后是 dt 基本上，您只需要選擇最大版本（刪除其他所有內容），然后選擇最大 dt 並刪除其他所有內容。 你只需要像這樣切換 2 行：

wind = Window.partitionBy("id")
data = data.withColumn("maxVersion", F.max("version").over(wind)) \
               .where(F.col("version") == F.col("maxVersion")) \
               .withColumn("maxDt", F.max("dt").over(wind)) \
               .where(F.col("maxDt") == F.col("dt")) \
               .drop(F.col("maxVersion")) \
               .drop(F.col("maxDt"))

id 100 只有一行的原因是因為在這種情況下最大版本和最大 dt 發生在同一行（你很幸運）。 但對於 id 200 則不是這樣。

Answer 2

基本上，您的配方存在幾個問題。 首先，您需要將日期從字符串更改為正確的日期格式。 然后 pyspark 中的 Window 允許您一個接一個地指定列的順序。 然后是rank()函數，它允許您在 Window 上對結果進行排名。 最后剩下的就是選擇第一個等級。

from pyspark.sql.types import *
from pyspark import SparkContext, SQLContext
import pyspark.sql.functions as F
from pyspark.sql import Window

sc = SparkContext('local')
sqlContext = SQLContext(sc)

data1 = [
        (100,1,"2020-03-19","Nil1"),
        (100,2,"2020-04-19","Nil2"),
        (100,2,"2020-04-19","Nil2"),
        (100,2,"2020-05-19","Ni13"),
        (200,1,"2020-09-19","Jay1"),
        (200,2,"2020-07-19","Jay2"),
        (200,2,"2020-08-19","Jay3"),

      ]

df1Columns = ["id", "version", "dt",  "Name"]
df1 = sqlContext.createDataFrame(data=data1, schema = df1Columns)
df1 = df1.withColumn("dt",F.to_date(F.to_timestamp("dt", 'yyyy-MM-dd')).alias('dt'))
print("Schema.")
df1.printSchema()
print("Actual initial data")
df1.show(truncate=False)

wind = Window.partitionBy("id").orderBy(F.desc("version"), F.desc("dt"))

df1 = df1.withColumn("rank", F.rank().over(wind))
print("Ranking over the window spec specified")
df1.show(truncate=False)

final_df = df1.filter(F.col("rank") == 1).drop("rank")
print("Filtering the final result by applying the rank == 1 condition")
final_df.show(truncate=False)

輸出：

Schema.
root
 |-- id: long (nullable = true)
 |-- version: long (nullable = true)
 |-- dt: date (nullable = true)
 |-- Name: string (nullable = true)

Actual initial data
+---+-------+----------+----+
|id |version|dt        |Name|
+---+-------+----------+----+
|100|1      |2020-03-19|Nil1|
|100|2      |2020-04-19|Nil2|
|100|2      |2020-04-19|Nil2|
|100|2      |2020-05-19|Ni13|
|200|1      |2020-09-19|Jay1|
|200|2      |2020-07-19|Jay2|
|200|2      |2020-08-19|Jay3|
+---+-------+----------+----+

Ranking over the window spec specified
+---+-------+----------+----+----+
|id |version|dt        |Name|rank|
+---+-------+----------+----+----+
|100|2      |2020-05-19|Ni13|1   |
|100|2      |2020-04-19|Nil2|2   |
|100|2      |2020-04-19|Nil2|2   |
|100|1      |2020-03-19|Nil1|4   |
|200|2      |2020-08-19|Jay3|1   |
|200|2      |2020-07-19|Jay2|2   |
|200|1      |2020-09-19|Jay1|3   |
+---+-------+----------+----+----+

Filtering the final result by applying the rank == 1 condition
+---+-------+----------+----+
|id |version|dt        |Name|
+---+-------+----------+----+
|100|2      |2020-05-19|Ni13|
|200|2      |2020-08-19|Jay3|
+---+-------+----------+----+

Answer 3

一種更簡潔的方法可能是執行以下操作：

w = Window.partitionBy("id").orderBy(F.col('version').desc(), F.col('dt').desc())
df1.withColumn('maximum', F.row_number().over(w)).filter('maximum = 1').drop('maximum').show()

如何使用pyspark數據框窗口功能

問題描述

3 個解決方案

解決方案1
1 已采納 2020-11-06 16:28:07

解決方案2
1 2020-11-06 16:28:42

解決方案3
0 2020-11-06 18:09:07

如何使用pyspark數據框窗口功能

問題描述

3 個解決方案

解決方案1 1 已采納 2020-11-06 16:28:07

解決方案2 1 2020-11-06 16:28:42

解決方案3 0 2020-11-06 18:09:07

解決方案1
1 已采納 2020-11-06 16:28:07

解決方案2
1 2020-11-06 16:28:42

解決方案3
0 2020-11-06 18:09:07