數據框pyspark更新前一行的行

Question

我正在使用 pyspark，並且我有一個如下所示的數據框：

CODE  |  POSITION|  COL1 | COL2
A     |  1       |       | 
A     |  2       |       | AAA
A     |  3       |   INF |
A     |  4       |   BIC |
A     |  5       |       |
B     |  1       |       | BBB
B     |  2       |   MIL |
B     |  3       |       |
B     |  4       |       | CCC
B     |  5       |       |
B     |  6       |       |

我想要那個：

CODE  |  POSITION|  COL1 | COL2
A     |  1       |       | 
A     |  2       |       | AAA
A     |  3       |   INF | AAA
A     |  4       |   BIC | AAA
A     |  5       |       |
B     |  1       |       | BBB
B     |  2       |   MIL | BBB
B     |  3       |       |
B     |  4       |       | CCC
B     |  5       |       |
B     |  6       |       |

我解釋一下，這個數據框按“CODE”分組並按“POSITION”排序，我需要一個組“CODE”，當我填充“COL2”（在本例中位置=2）取值“AAA”和將其放在以下位置 3 和 4（同時填充 COL1）

我知道沒那么容易（對我來說！）

非常感謝您的幫助

Answer 1

可以使用last函數來完成。
F.last返回有序窗口中的最后一個非空值。

您的數據框：

from pyspark.sql.functions import col
from pyspark.sql.functions import lag
from pyspark.sql.window import Window
from pyspark.sql import functions as F
import sys

df = sc.parallelize([['A', 1, None, None], ['A', 2, None, 'AAA'], ['A', 3, 'INF', None], ['A', 4, 'BIC', None], ['A', 5, None, None], ['B', 1, None, 'BBB'], ['B', 2, 'MIL', None], ['B', 3, None, None], ['B', 4, None, 'CCC'], ['B', 5, None, None], ['B', 6, None, None]])
df = df.toDF(['code', 'position', 'col1', 'col2'])

w = Window.partitionBy("code").orderBy("position")

df.withColumn("col3", F.last('col2', True).over(w.rowsBetween(-sys.maxsize, 0)))\
    .withColumn("col3", F.when(col("col1").isNull(), col("col2"))
    .otherwise(col("col3")))\
    .drop("col2").withColumnRenamed("col3", "col2")\
    .orderBy("code", "position").show()

輸出：

+----+--------+----+----+                                                       
|code|position|col1|col2|
+----+--------+----+----+
|   A|       1|null|null|
|   A|       2|null| AAA|
|   A|       3| INF| AAA|
|   A|       4| BIC| AAA|
|   A|       5|null|null|
|   B|       1|null| BBB|
|   B|       2| MIL| BBB|
|   B|       3|null|null|
|   B|       4|null| CCC|
|   B|       5|null|null|
|   B|       6|null|null|
+----+--------+----+----+

如果position 6對應的col1被填滿，則在col2返回CCC 。
當它在窗口中前進時，它采用col2最新的非空值。

+----+--------+----+----+
|   B|       6| XYZ| CCC|
+----+--------+----+----+

數據框pyspark更新前一行的行

問題描述

1 個解決方案

解決方案1
0 2020-09-24 01:14:03

數據框pyspark更新前一行的行

問題描述

1 個解決方案

解決方案1 0 2020-09-24 01:14:03

解決方案1
0 2020-09-24 01:14:03