[英]How to filter a dataframe in Pyspark
如果給定的數據框是
A B C
1 0 0
3 0 1
4 0 8
5 0 0
我們如何過濾上述數據框,以便僅當除第一列之外的所有列都包含值 0 時。
A B C
3 0 1
4 0 8
嘗試單獨檢查每一列並使用greatest
組合布爾值:
import pyspark.sql.functions as F
df2 = df.filter(F.greatest(*[F.col(c) != 0 for c in df.columns[1:]]))
df2.show()
+---+---+---+
| A| B| C|
+---+---+---+
| 3| 0| 1|
| 4| 0| 8|
+---+---+---+
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.