如何根據條件更新 spark dataframe 中的行

Question

我正在嘗試更新 dataframe 的一些行，下面是我的代碼。

dfs_ids1 = dfs_ids1.withColumn("arrival_dt", F.when(F.col("arrival_dt")=='1960-01-01', lit(None)) )

基本上，我想用null更新arrival_dt為1960-01-01的所有行，並保留 rest 行不變。

Answer 1

您需要了解filter及其功能when

如果你只想獲取行而不關心其他行，試試這個。

from pyspark.sql.functions import *

dfs_ids1 = dfs_ids1.filter(col("arrival_dt='1960-01-01'"))

如果您想使用自定義值或其他列更新剩余。

dfs_ids1=dfs_ids1.withColumn("arrival_dt",when(col("arrival_dt")=="1960-01-01",col("arrival_dt")).otherwise(lit(None))) 

//Or

dfs_ids1=dfs_ids1.withColumn("arrival_dt",when(col("arrival_dt")=="1960-01-01",col("arrival_dt")))

//Sample example

//Input df

+------+-------+-----+
|  name|   city|state|
+------+-------+-----+
| manoj|gwalior|   mp|
| kumar|  delhi|delhi|
|dhakad|chennai|   tn|
+------+-------+-----+

from pyspark.sql.functions import *
opOneDf=df.withColumn("name",when(col("city")=="delhi",col("city")).otherwise(lit(None)))
opOneDf.show()

//Sample output

+-----+-------+-----+
| name|   city|state|
+-----+-------+-----+
| null|gwalior|   mp|
|delhi|  delhi|delhi|
| null|chennai|   tn|
+-----+-------+-----+

如何根據條件更新 spark dataframe 中的行

問題描述

1 個解決方案

解決方案1
0 已采納 2020-02-11 12:21:43

如何根據條件更新 spark dataframe 中的行

問題描述

1 個解決方案

解決方案1 0 已采納 2020-02-11 12:21:43

解決方案1
0 已采納 2020-02-11 12:21:43