用元组触发aggregateByKey

Question

spark的RDD api的新功能 -感谢Spark将sql窗口功能迁移到RDD以获得更好的性能 -我设法生成了下表：

+-----------------+---+
|               _1| _2|
+-----------------+---+
|  [col3TooMany,C]|  0|
|         [col1,A]|  0|
|         [col2,B]|  0|
|  [col3TooMany,C]|  1|
|         [col1,A]|  1|
|         [col2,B]|  1|
|[col3TooMany,jkl]|  0|
|         [col1,d]|  0|
|         [col2,a]|  0|
|  [col3TooMany,C]|  0|
|         [col1,d]|  0|
|         [col2,g]|  0|
|  [col3TooMany,t]|  1|
|         [col1,A]|  1|
|         [col2,d]|  1|
|  [col3TooMany,C]|  1|
|         [col1,d]|  1|
|         [col2,c]|  1|
|  [col3TooMany,C]|  1|
|         [col1,c]|  1|
+-----------------+---+

初始输入为

val df = Seq(
    (0, "A", "B", "C", "D"),
    (1, "A", "B", "C", "D"),
    (0, "d", "a", "jkl", "d"),
    (0, "d", "g", "C", "D"),
    (1, "A", "d", "t", "k"),
    (1, "d", "c", "C", "D"),
    (1, "c", "B", "C", "D")
  ).toDF("TARGET", "col1", "col2", "col3TooMany", "col4")

  val columnsToDrop = Seq("col3TooMany")
  val columnsToCode = Seq("col1", "col2")
  val target = "TARGET"

import org.apache.spark.sql.functions._

  val exploded = explode(array(
    (columnsToDrop ++ columnsToCode).map(c =>
      struct(lit(c).alias("k"), col(c).alias("v"))): _*
  )).alias("level")

  val long = df.select(exploded, $"TARGET")

  import org.apache.spark.util.StatCounter

然后

long.as[((String, String), Int)].rdd.aggregateByKey(StatCounter())(_ merge _, _ merge _).collect.head
res71: ((String, String), org.apache.spark.util.StatCounter) = ((col2,B),(count: 3, mean: 0,666667, stdev: 0,471405, max: 1,000000, min: 0,000000))

汇总每列所有唯一值的统计信息。

我如何将第二个计数（可能是一个元组）加到count （ col2 B值为3 ），它表示col2中B的数量，其中TARGET == 1 。 在这种情况下，应该为2 。

Answer 1

您无需在此处添加其他汇总。 对于二进制target列， mean只是target等于1的经验概率：

1的数量- count * mean
数字0- count *（1- mean ）

用元组触发aggregateByKey

问题描述

1 个解决方案

解决方案1
2 已采纳 2017-01-04 19:33:05

用元组触发aggregateByKey

问题描述

1 个解决方案

解决方案1 2 已采纳 2017-01-04 19:33:05

解决方案1
2 已采纳 2017-01-04 19:33:05