pySpark中的派生列使用兩列和上一行的值

Question

我想在我的spark數據框上創建一列，並對兩列進行操作。

我想創建用以下公式計算的“ Areas ”列：

( (Pct_Buenos_Acum[i]-Pct_Buenos_Acum[i-1]) * (Pct_Malos_Acum[i]+Pct_Malos_Acum[i-1]) ) / 2

我已經試過了：

w = Window.rowsBetween(Window.unboundedPreceding, Window.currentRow)

df= df.withColumn('Areas', (( ( col('Pct_Acum_buenos')-col('Pct_Acum_buenos' ) )*(col('Pct_Acum_malos')+col('Pct_Acum_malos')))/2).over(w))

查找隨附我到目前為止的印刷品

Answer 1

這是一種訪問pySpark中先前值的方法。 順其自然。

from pyspark.sql import functions as F

# adding indexs column to use in order by
df = df.withColumn('index', F.monotonicallyIncreasingId)

w = Window.partitionBy().orderBy('index')

df = df.withColumn('Areas', (((col('Pct_Acum_buenos')-F.lag(col('Pct_Acum_buenos')).over(w))*(col('Pct_Acum_malos')+F.lag(col('Pct_Acum_malos')).over(w)))/2)

pySpark中的派生列使用兩列和上一行的值

問題描述

1 個解決方案

解決方案1
1 已采納 2018-12-20 08:31:06

pySpark中的派生列使用兩列和上一行的值

問題描述

1 個解決方案

解決方案1 1 已采納 2018-12-20 08:31:06

解決方案1
1 已采納 2018-12-20 08:31:06