![](/img/trans.png)
[英]getting the previous and next value from a dataframe and add a new column
[英]Spark add new column to dataframe with value from previous row
我想知道如何在Spark(Pyspark)中實現以下目標
初始數據框:
+--+---+
|id|num|
+--+---+
|4 |9.0|
+--+---+
|3 |7.0|
+--+---+
|2 |3.0|
+--+---+
|1 |5.0|
+--+---+
結果數據框:
+--+---+-------+
|id|num|new_Col|
+--+---+-------+
|4 |9.0| 7.0 |
+--+---+-------+
|3 |7.0| 3.0 |
+--+---+-------+
|2 |3.0| 5.0 |
+--+---+-------+
我通常使用類似df.withColumn("new_Col", df.num * 10)
將新列“追加”到數據df.withColumn("new_Col", df.num * 10)
但是,我不知道如何為新列實現這種“行移位”,以便新列具有上一行的字段值(如示例中所示)。 我也無法在API文檔中找到有關如何通過索引訪問DF中特定行的任何內容。
任何幫助,將不勝感激。
您可以如下使用lag
窗口功能
from pyspark.sql.functions import lag, col
from pyspark.sql.window import Window
df = sc.parallelize([(4, 9.0), (3, 7.0), (2, 3.0), (1, 5.0)]).toDF(["id", "num"])
w = Window().partitionBy().orderBy(col("id"))
df.select("*", lag("num").over(w).alias("new_col")).na.drop().show()
## +---+---+-------+
## | id|num|new_col|
## +---+---+-------|
## | 2|3.0| 5.0|
## | 3|7.0| 3.0|
## | 4|9.0| 7.0|
## +---+---+-------+
但是有一些重要的問題:
盡管第二個問題幾乎從來都不是問題,但第一個問題可以成為破壞交易的方法。 如果是這種情況,您應該簡單地將DataFrame
轉換為RDD並手動計算lag
。 參見例如:
其他有用的鏈接:
val df = sc.parallelize(Seq((4, 9.0), (3, 7.0), (2, 3.0), (1, 5.0))).toDF("id", "num")
df.show
+---+---+
| id|num|
+---+---+
| 4|9.0|
| 3|7.0|
| 2|3.0|
| 1|5.0|
+---+---+
df.withColumn("new_column", lag("num", 1, 0).over(w)).show
+---+---+----------+
| id|num|new_column|
+---+---+----------+
| 1|5.0| 0.0|
| 2|3.0| 5.0|
| 3|7.0| 3.0|
| 4|9.0| 7.0|
+---+---+----------+
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.