基于前一列的Spark Df Check Column值

Question

嗨，我一直坚持在Spark DF上实现自定义条件。 基本上我想基于列中存在的Null值将列标记为0或1，即如果有的话

列包含null，对应于该行的状态将为0，否则为1

 val someData = Seq(
    Row(8, "bat"),
    Row(64, "mouse"),
    Row(null, "rat")
  )

  val someSchema = List(
    StructField("number", IntegerType, true),
    StructField("word", StringType, true)
  )

  val someDF = sparkSession.createDataFrame(
    sparkSession.sparkContext.parallelize(someData),
    StructType(someSchema)
  )
val fieldList: Seq[Column] = Seq(col("word"),col("number"))


 val df = fieldList.foldLeft(inputDf)(
      (inputDf, f) => {
       dfin = inputDf.withColumn(Status, lit(0))
        dfin
          .withColumn(
            Status,
            when(f.isNotNull and col("status").isin(0), 0).otherwise(1)
          )

      }

但它基于fieldList的最后一列进行检查，但它应该像

col 1  col2  status
zyx .  pqe .  0
null . zyz . 1
xdc . null  1
null  null  1

Answer 1

val df = someDF.withColumn("status", when(fieldList.map(x => col(x).isNull).reduce(_ || _), 1).otherwise(0)

这个想法是首先将每个列的名称转换为一列，并检查它是否为null（地图），现在，如果至少一个为null，则简单的reduce会导致true。

基于前一列的Spark Df Check Column值

问题描述

1 个解决方案

解决方案1
1 已采纳 2018-12-30 16:06:59

基于前一列的Spark Df Check Column值

问题描述

1 个解决方案

解决方案1 1 已采纳 2018-12-30 16:06:59

解决方案1
1 已采纳 2018-12-30 16:06:59