Pyspark数据框过滤器基于列的出现

Question

我有pyspark数据框，我想用列A和B过滤数据框。现在我只想获取B的值，其中A的出现大于某个数字N。

列A的like和id可以具有重复值。 现在，我正在对分组依据进行过滤，并使用效率不高的值列表，因此我正在寻找有效的解决方案。

例

N = 5

输入图像

预期输出图像

您可以看到那里只选择了列A的ID1和ID3，因为阈值为5，其余所有均被排除。

Answer 1

尝试以下操作：

df = ... # The dataframe
N = 5 # The value to test
df_b = df.filter(df['A'] >= N).select('B')

这将首先过滤仅包含A> = N及其相应的“ B”值的行的数据框。 应用过滤器后，仅选择B列即可获得最终结果。