如何對具有單列的PySpark數據框進行正向填充缺失值估算？

Question

我有一個單列的PySpark數據框。

| Rank  
|----------
| 10
| 10
| null   
| null     
| 15
| null
| 20
| null     
| null     
| 15
| null   
| 10

我想使用正向填充（例如pandas ffill（）函數）來估算缺少的值。

期望的輸出

| Rank    
|----------
| 10
| 10
| 10   
| 10     
| 15
| 15
| 20
| 20     
| 20     
| 15
| 15   
| 10

免責聲明：我在stackoverflow中有一些解決方案，但是當您只有一個列作為輸入時，它們將無法工作。

Answer 1

請檢查火花中的滯后和超前功能。

滯后和超前僅用於獲得一個偏移量。 使用全局變量簡單創建udf應該可以解決問題以下是簡單示例

var PRV_RANK = 0f

import spark.implicits._
val data = spark.sparkContext.parallelize(Seq(10f, 10f, Float.NaN, Float.NaN, 15f, Float.NaN, 20f, Float.NaN, Float.NaN, 15f, Float.NaN, 10f))
  .toDF("rank")

val forwardFill = udf((rank: Float) =>
{
  if (rank == null || rank.equals(Float.NaN)){
    PRV_RANK
  }
  else {
    PRV_RANK = rank
    rank
  }
})

data.withColumn("rankNew", forwardFill($"rank")).show()

希望這可以幫助！

如何對具有單列的PySpark數據框進行正向填充缺失值估算？

問題描述

1 個解決方案

解決方案1
1 2017-06-06 11:37:04

如何對具有單列的PySpark數據框進行正向填充缺失值估算？

問題描述

1 個解決方案

解決方案1 1 2017-06-06 11:37:04

解決方案1
1 2017-06-06 11:37:04