繁体   English   中英

Pyspark数据框过滤器基于列的出现

[英]Pyspark dataframe filter using occurrence based on column

我有pyspark数据框,我想用列A和B过滤数据框。现在我只想获取B的值,其中A的出现大于某个数字N。

列A的like和id可以具有重复值。 现在,我正在对分组依据进行过滤,并使用效率不高的值列表,因此我正在寻找有效的解决方案。

N = 5

输入图像

预期输出图像

您可以看到那里只选择了列A的ID1和ID3,因为阈值为5,其余所有均被排除。

尝试以下操作:

df = ... # The dataframe
N = 5 # The value to test
df_b = df.filter(df['A'] >= N).select('B')

这将首先过滤仅包含A> = N及其相应的“ B”值的行的数据框。 应用过滤器后,仅选择B列即可获得最终结果。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM