Pyspark數據框：獲取符合條件的上一行

Question

對於PySpark DataFrame中的每一行，我都試圖從前一個滿足特定條件的第一行中獲取一個值：

那就是我的數據框看起來像這樣：

X  | Flag
1  | 1
2  | 0
3  | 0
4  | 0
5  | 1
6  | 0
7  | 0
8  | 0
9  | 1
10 | 0

我想要看起來像這樣的輸出：

X  | Lag_X | Flag
1  | NULL  | 1
2  | 1     | 0
3  | 1     | 0
4  | 1     | 0
5  | 1     | 1
6  | 5     | 0
7  | 5     | 0
8  | 5     | 0
9  | 5     | 1
10 | 9     | 0

我以為我可以用延遲功能和WindowSpec做到這一點，可惜WindowSpec犯規支持.filter或.when ，所以這不工作：

conditional_window = Window().orderBy(X).filter(df[Flag] == 1)
df = df.withColumn('lag_x', f.lag(df[x],1).over(conditional_window)

看起來這應該很簡單，但是我一直在努力尋找解決方案，因此對此提供的任何幫助將不勝感激

Answer 1

問題很老，但我認為答案可能會對其他人有所幫助

這是使用窗口和滯后功能的有效解決方案

from pyspark.sql import functions as F
from pyspark.sql import Window
from pyspark.sql.functions import when
from pyspark.context import SparkContext

# Call SparkContext
sc = SparkContext.getOrCreate()
sc = sparkContext

# Create DataFrame
a = sc.createDataFrame([(1, 1), 
                        (2, 0),
                        (3, 0),
                        (4, 0),
                        (5, 1),
                        (6, 0),
                        (7, 0),
                        (8, 0),
                        (9, 1),
                       (10, 0)]
                     , ['X', 'Flag'])

# Use a window function
win = Window.orderBy("X")
# Condition : if preceeding row in column "Flag" is not 0
condition = F.lag(F.col("Flag"), 1).over(win) != 0
# Add a new column : if condition is true, value is value of column "X" at the previous row
a = a.withColumn("Flag_X", F.when(condition, F.col("X") - 1))

現在，我們獲得一個DataFrame，如下所示

+---+----+------+
|  X|Flag|Flag_X|
+---+----+------+
|  1|   1|  null|
|  2|   0|     1|
|  3|   0|  null|
|  4|   0|  null|
|  5|   1|  null|
|  6|   0|     5|
|  7|   0|  null|
|  8|   0|  null|
|  9|   1|  null|
| 10|   0|     9|
+---+----+------+

要填充空值：

a = a.withColumn("Flag_X", 
                 F.last(F.col("Flag_X"), ignorenulls=True)\
     .over(win))

所以最終的DataFrame是按要求的：

+---+----+------+
|  X|Flag|Flag_X|
+---+----+------+
|  1|   1|  null|
|  2|   0|     1|
|  3|   0|     1|
|  4|   0|     1|
|  5|   1|     1|
|  6|   0|     5|
|  7|   0|     5|
|  8|   0|     5|
|  9|   1|     5|
| 10|   0|     9|
+---+----+------+

Pyspark數據框：獲取符合條件的上一行

問題描述

1 個解決方案

解決方案1
2 2018-10-16 12:57:15

Pyspark數據框：獲取符合條件的上一行

問題描述

1 個解決方案

解決方案1 2 2018-10-16 12:57:15

解決方案1
2 2018-10-16 12:57:15