加入后如何更新Spark Scala中的dataframe列？

Question

将两个数据框连接起来将近60列。 他们中的大多数人假设保持原样，但有些人需要根据其他列中的值进行更新。 有没有一种方法可以在不计算新列的情况下更新这些列，删除原始列并重命名计算后的列？

简化的示例：左侧数据框中$"Sales列中的收入应由联接结果中的$"Weight加权。 有没有一种有效的方法来进行计算$"SalesWeighted生成$"SalesWeighted作为新列，删除原始$Sales并将$SalesWeighted重命名为$Sales ？

val l = Seq((1, 50), (2, 35), (3, 66))
            .toDF("Id", "Sales")

val r = Seq((1, "Premium", 0.2), (1, "Standard", 0.8), 
            (2, "Premium", 0.4), (2, "Standard", 0.6), 
            (3, "Premium", 0.333), (3, "Standard", 0.333), (3, "Garbage", 0.334))
            .toDF("Id", "Grade", "Weight")

display(l.join(r, Seq("Id")).withColumn("SalesWeighted", $"Sales"*$"Weight")
            .orderBy($"Id", $"Grade"))

Answer 1

使用Drop删除不必要的列

val l = Seq((1, 50), (2, 35), (3, 66))
                .toDF("Id", "Sales")

    val r = Seq((1, "Premium", 0.2), (1, "Standard", 0.8), 
                (2, "Premium", 0.4), (2, "Standard", 0.6), 
                (3, "Premium", 0.333), (3, "Standard", 0.333), (3, "Garbage", 0.334))
                .toDF("Id", "Grade", "Weight")

    display(l.join(r, Seq("Id")).withColumn("SalesWeighted", $"Sales"*$"Weight").drop($"Sales")
                .orderBy($"Id", $"Grade"))

Answer 2

您只需将新列命名为与要替换的列相同的名称：

l.join(r, Seq("Id")).withColumn("Sales", $"Sales" * $"Weight").
  orderBy($"Id", $"Grade")

或者，只需使用select ：

l.join(r, Seq("Id")).
  select($"Id", $"Grade", $"Weight", ($"Sales" * $"Weight").as("Sales")).
  orderBy($"Id", $"Grade")

加入后如何更新Spark Scala中的dataframe列？

问题描述

2 个解决方案

解决方案1
1 2018-09-05 18:39:19

解决方案2
1 已采纳 2018-09-05 19:22:03

加入后如何更新Spark Scala中的dataframe列？

问题描述

2 个解决方案

解决方案1 1 2018-09-05 18:39:19

解决方案2 1 已采纳 2018-09-05 19:22:03

解决方案1
1 2018-09-05 18:39:19

解决方案2
1 已采纳 2018-09-05 19:22:03