Spark使用上一行的值將新列添加到數據框

Question

我想知道如何在Spark（Pyspark）中實現以下目標

初始數據框：

+--+---+
|id|num|
+--+---+
|4 |9.0|
+--+---+
|3 |7.0|
+--+---+
|2 |3.0|
+--+---+
|1 |5.0|
+--+---+

結果數據框：

+--+---+-------+
|id|num|new_Col|
+--+---+-------+
|4 |9.0|  7.0  |
+--+---+-------+
|3 |7.0|  3.0  |
+--+---+-------+
|2 |3.0|  5.0  |
+--+---+-------+

我通常使用類似df.withColumn("new_Col", df.num * 10)將新列“追加”到數據df.withColumn("new_Col", df.num * 10)

但是，我不知道如何為新列實現這種“行移位”，以便新列具有上一行的字段值（如示例中所示）。 我也無法在API文檔中找到有關如何通過索引訪問DF中特定行的任何內容。

任何幫助，將不勝感激。

Answer 1

您可以如下使用lag窗口功能

from pyspark.sql.functions import lag, col
from pyspark.sql.window import Window

df = sc.parallelize([(4, 9.0), (3, 7.0), (2, 3.0), (1, 5.0)]).toDF(["id", "num"])
w = Window().partitionBy().orderBy(col("id"))
df.select("*", lag("num").over(w).alias("new_col")).na.drop().show()

## +---+---+-------+
## | id|num|new_col|
## +---+---+-------|
## |  2|3.0|    5.0|
## |  3|7.0|    3.0|
## |  4|9.0|    7.0|
## +---+---+-------+

但是有一些重要的問題：

如果您需要全局操作（不被其他一個或多個其他列分區），則效率極低。
您需要一種自然的方式來訂購數據。

盡管第二個問題幾乎從來都不是問題，但第一個問題可以成為破壞交易的方法。 如果是這種情況，您應該簡單地將DataFrame轉換為RDD並手動計算lag 。 參見例如：

如何在Pyspark中的時間序列數據上使用滑動窗口轉換數據
Apache Spark移動平均（用Scala編寫，但可以針對PySpark進行調整。請務必先閱讀注釋）。

其他有用的鏈接：

Answer 2

   val df = sc.parallelize(Seq((4, 9.0), (3, 7.0), (2, 3.0), (1, 5.0))).toDF("id", "num")
df.show
+---+---+
| id|num|
+---+---+
|  4|9.0|
|  3|7.0|
|  2|3.0|
|  1|5.0|
+---+---+
df.withColumn("new_column", lag("num", 1, 0).over(w)).show
+---+---+----------+
| id|num|new_column|
+---+---+----------+
|  1|5.0|       0.0|
|  2|3.0|       5.0|
|  3|7.0|       3.0|
|  4|9.0|       7.0|
+---+---+----------+

Spark使用上一行的值將新列添加到數據框

問題描述

2 個解決方案

解決方案1
36 已采納 2015-12-15 17:48:55

解決方案2
-1 2018-10-15 11:02:09

Spark使用上一行的值將新列添加到數據框

問題描述

2 個解決方案

解決方案1 36 已采納 2015-12-15 17:48:55

解決方案2 -1 2018-10-15 11:02:09

解決方案1
36 已采納 2015-12-15 17:48:55

解決方案2
-1 2018-10-15 11:02:09