繁体   English   中英

计算数据框中的空值:scala spark

[英]Counting empty values in dataframe: scala spark

假设我有一个包含多个列column1column2 ..的数据帧df ,我想查找每列中的空值计数。 一种方法是从每一列开始,例如:

df.filter($"column1" !== "").count
df.filter($"column2" !== "").count
                .
                .

但是有一种方法可以做到这一点吗?

我建议使用某种聚合并构建一个新的DataFrame:

  df.agg(
      sum(when($"column1" !== "", 1).otherwise(0)),
      sum(when($"column2" !== "", 1).otherwise(0))
      )

编辑:如果您有很多列,请尝试这样的事情:

val ncols=2
val cols = (1 to ncols)
  .map(i=> sum(when(col("column"+i)!=="",1).otherwise(0)))

df.agg(cols.head,cols.tail:_*)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM