[英]Counting empty values in dataframe: scala spark
假设我有一个包含多个列column1
, column2
..的数据帧df
,我想查找每列中的空值计数。 一种方法是从每一列开始,例如:
df.filter($"column1" !== "").count
df.filter($"column2" !== "").count
.
.
但是有一种方法可以做到这一点吗?
我建议使用某种聚合并构建一个新的DataFrame:
df.agg(
sum(when($"column1" !== "", 1).otherwise(0)),
sum(when($"column2" !== "", 1).otherwise(0))
)
编辑:如果您有很多列,请尝试这样的事情:
val ncols=2
val cols = (1 to ncols)
.map(i=> sum(when(col("column"+i)!=="",1).otherwise(0)))
df.agg(cols.head,cols.tail:_*)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.