Pyspark：过滤 dataframe 基于具有许多条件的列表

Question

假设您有一个 pyspark dataframe df与A和B列。
现在，您想用许多条件过滤 dataframe。

条件包含在字典列表中：

l = [{'A': 'val1', 'B': 5}, {'A': 'val4', 'B': 2}, ...]

过滤应按如下方式进行：

df.filter(
( (df['A'] == l[0]['A']) & (df['B'] == l[0]['B']) )
&
( (df['A'] == l[1]['A']) & (df['B'] == l[1]['B']) )
&
...
)

如果l包含许多条件，即手动插入过滤条件是不切实际的，如何做到这一点？

我考虑过使用单独的过滤步骤，即：

for d in l:
    df = df.filter((df['A'] == d['A']) & (df['B'] == d['B']))

是否有更短或更优雅的方式来执行此操作，例如类似于使用列表推导？
此外，这不适用于 OR (|)。

Answer 1

您可以使用您list of dictionaries创建一个sql expression并将其一次性发送到您的filter all at once 。

l = [{'A': 'val1', 'B': 5}, {'A': 'val4', 'B': 2}]
df.show()

#+----+---+
#|   A|  B|
#+----+---+
#|val1|  5|
#|val1|  1|
#|val1|  3|
#|val4|  2|
#|val1|  4|
#|val1|  1|
#+----+---+

df.filter(' or '.join(["A"+"="+"'"+d['A']+"'"+" and "+"B"+"="+str(d['B']) for d in l])).show()

#+----+---+
#|   A|  B|
#+----+---+
#|val1|  5|
#|val4|  2|
#+----+---+

Pyspark：过滤 dataframe 基于具有许多条件的列表

问题描述

1 个解决方案

解决方案1
2 已采纳 2020-04-30 14:50:23

Pyspark：过滤 dataframe 基于具有许多条件的列表

问题描述

1 个解决方案

解决方案1 2 已采纳 2020-04-30 14:50:23

解决方案1
2 已采纳 2020-04-30 14:50:23