簡體   English   中英

如何在 Pyspark 中過濾 dataframe

[英]How to filter a dataframe in Pyspark

如果給定的數據框是

A B C
1 0 0
3 0 1
4 0 8
5 0 0

我們如何過濾上述數據框,以便僅當除第一列之外的所有列都包含值 0 時。

A B C
3 0 1
4 0 8

嘗試單獨檢查每一列並使用greatest組合布爾值:

import pyspark.sql.functions as F

df2 = df.filter(F.greatest(*[F.col(c) != 0 for c in df.columns[1:]]))

df2.show()
+---+---+---+
|  A|  B|  C|
+---+---+---+
|  3|  0|  1|
|  4|  0|  8|
+---+---+---+

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM