如何使用列值作为 PySpark 中字典的键？

Question

我有一个小的 PySpark DataFrame df ：

index    col1
0        1    
1        3
2        4

还有一本字典：

LOOKUP = {0: 2, 1: 5, 2: 5, 3: 4, 4: 6}

我现在想向df添加一个额外的列col2 ，等于col1的LOOKUP值。

我的 output 应该是这样的：

index    col1 col2
0        1    5    
1        3    4
2        4    6

我尝试使用：

df = df.withColumn(col("col2"), LOOKUP[col("col1")])

但这给了我错误，以及使用expr 。

如何在 PySpark 中实现这一点？

Answer 1

您可以使用从lookup字典创建的map列：

from itertools import chain
from pyspark.sql import functions as F

lookup = {0: 2, 1: 5, 2: 5, 3: 4, 4: 6}
lookup_map = F.create_map(*[F.lit(x) for x in chain(*lookup.items())])

df1 = df.withColumn("col2", lookup_map[F.col("col1")])

df1.show()
#+-----+----+----+
#|index|col1|col2|
#+-----+----+----+
#|    0|   1|   5|
#|    1|   3|   4|
#|    2|   4|   6|
#+-----+----+----+

另一种方法是从dict创建一个lookup_df ，然后加入你的dataframe

Answer 2

您可以在此处使用带有 python f-strings的CASE WHEN语句和LOOKUP字典：

from pyspark.sql import functions as F
column = 'col1' #column to replace
e = f"""CASE {' '.join([f"WHEN {column}='{k}' THEN '{v}'" for k,v in LOOKUP.items()])} 
        ELSE NULL END"""
out = df.withColumn("col2",F.expr(e))

out.show()

+-----+----+----+
|index|col1|col2|
+-----+----+----+
|    0|   1|   5|
|    1|   3|   4|
|    2|   4|   6|
+-----+----+----+

如何使用列值作为 PySpark 中字典的键？

问题描述

2 个解决方案

解决方案1
0 2021-12-23 13:56:26

解决方案2
0 2021-12-23 17:43:22

如何使用列值作为 PySpark 中字典的键？

问题描述

2 个解决方案

解决方案1 0 2021-12-23 13:56:26

解决方案2 0 2021-12-23 17:43:22

解决方案1
0 2021-12-23 13:56:26

解决方案2
0 2021-12-23 17:43:22