使用列中最后出現的值修剪Spark中的數據框

Question

我有要在列PDP中按值Good的最后出現修剪的數據框。 這是要考慮第5行及以下行。 第5行以上的任何內容都沒有關系。

+------+----+
|custId| PDP|
|  1001| New|
|  1002|Good|
|  1003| New| 
|  1004| New|
|  1005|Good|
|  1006| New|
|  1007| New|
|  1008| New|
|  1009| New|
+------+----+

我需要的是這個數據框。 自上次Good行動發生在第5行

+------+----+
|custId| PDP|
|  1001| New|
|  1002|Good|
|  1003| New| 
|  1004| New|
|  1005|Good|
+------+----+

Answer 1

你可以試試：

df
  .filter($"PDP" === "Good")             // Filter good
  .select(max("custId").alias("maxId"))  // Find max id
  .crossJoin(df)
  .where($"custId" <= $"maxId")          // Filter records with id <= lastGoodId
  .drop("maxId")                         // Remove obsolete column

Answer 2

您必須在PDP列中找到“ Good的最后一行索引，然后僅過濾小於該索引的行。

客戶編號

如果您的custId列包含按排序順序遞增的ID，則可以執行以下操作

import org.apache.spark.sql.functions._
val maxIdToFilter = df.filter(lower(col("PDP")) === "good").select(max(col("custId").cast("long"))).first().getLong(0)
df.filter(col("custId") <= maxIdToFilter).show(false)

monotically_increasing_id

如果您的custId沒有排序和升序，則可以使用以下邏輯

import org.apache.spark.sql.functions._
val dfWithRow = df.withColumn("rowNo", monotonically_increasing_id())
val maxIdToFilter = dfWithRow.filter(lower(col("PDP")) === "good").select(max("rowNo")).first().getLong(0)
dfWithRow.filter(col("rowNo") <= maxIdToFilter).drop("rowNo").show(false)

我希望答案是有幫助的

使用列中最后出現的值修剪Spark中的數據框

問題描述

2 個解決方案

解決方案1
0 2018-06-08 22:23:56

解決方案2
0 2018-06-09 02:39:57

客戶編號

monotically_increasing_id

使用列中最后出現的值修剪Spark中的數據框

問題描述

2 個解決方案

解決方案1 0 2018-06-08 22:23:56

解決方案2 0 2018-06-09 02:39:57

客戶編號

monotically_increasing_id

解決方案1
0 2018-06-08 22:23:56

解決方案2
0 2018-06-09 02:39:57