value reduceByKey不是org.apache.spark.rdd.RDD的成员

Question

这很伤心。我的火花版本是2.1.1，Scala版本是2.11

import org.apache.spark.SparkContext._
import com.mufu.wcsa.component.dimension.{DimensionKey, KeyTrait}
import com.mufu.wcsa.log.LogRecord
import org.apache.spark.rdd.RDD

object PV {

//
  def stat[C <: LogRecord,K <:DimensionKey](statTrait: KeyTrait[C ,K],logRecords: RDD[C]): RDD[(K,Int)] = {
    val t = logRecords.map(record =>(statTrait.getKey(record),1)).reduceByKey((x,y) => x + y)

我收到了这个错误

at 1502387780429
[ERROR] /Users/lemanli/work/project/newcma/wcsa/wcsa_my/wcsavistor/src/main/scala/com/mufu/wcsa/component/stat/PV.scala:25: error: value reduceByKey is not a member of org.apache.spark.rdd.RDD[(K, Int)]
[ERROR]     val t = logRecords.map(record =>(statTrait.getKey(record),1)).reduceByKey((x,y) => x + y)

定义了一个特征

trait KeyTrait[C <: LogRecord,K <: DimensionKey]{
  def getKey(c:C):K
}

编译完毕，谢谢。

 def stat[C <: LogRecord,K <:DimensionKey : ClassTag : Ordering](statTrait: KeyTrait[C ,K],logRecords: RDD[C]): RDD[(K,Int)] = {
    val t = logRecords.map(record =>(statTrait.getKey(record),1)).reduceByKey((x,y) => x + y)

关键需要覆盖Ordering [T]。

  object ClientStat extends KeyTrait[DetailLogRecord, ClientStat] {
      implicit val c

lientStatSorting = new Ordering[ClientStat] {
    override def compare(x: ClientStat, y: ClientStat): Int = x.key.compare(y.key)
  }

      def getKey(detailLogRecord: DetailLogRecord): ClientStat = new ClientStat(detailLogRecord)
    }

Answer 1

这来自于通常使用一对rdd函数。 reduceByKey方法实际上是PairRDDFunctions类的一个方法，它具有来自RDD的隐式转换：

implicit def rddToPairRDDFunctions[K, V](rdd: RDD[(K, V)])
    (implicit kt: ClassTag[K], vt: ClassTag[V], ord: Ordering[K] = null): PairRDDFunctions[K, V]

所以它需要几个隐式类型类。 通常在处理简单的混凝土类型时，这些已经在范围内。 但是您应该能够修改您的方法以同样需要相同的含义：

def stat[C <: LogRecord,K <:DimensionKey](statTrait: KeyTrait[C ,K],logRecords: RDD[C])(implicit kt: ClassTag[K], ord: Ordering[K])

或者使用更新的语法：

def stat[C <: LogRecord,K <:DimensionKey : ClassTag : Ordering](statTrait: KeyTrait[C ,K],logRecords: RDD[C])

Answer 2

reduceByKey是一种仅在元组的RDD[(K, V)]上定义的方法，即RDD[(K, V)] （K，V只是一个惯例，即首先是关键的第二个是值）。

从示例中不确定您要实现的目标，但是肯定需要将RDD中的值转换为两个值的元组。

value reduceByKey不是org.apache.spark.rdd.RDD的成员

问题描述

2 个解决方案

解决方案1
8 已采纳 2017-08-10 18:38:51

解决方案2
3 2017-08-10 18:36:40

value reduceByKey不是org.apache.spark.rdd.RDD的成员

问题描述

2 个解决方案

解决方案1 8 已采纳 2017-08-10 18:38:51

解决方案2 3 2017-08-10 18:36:40

解决方案1
8 已采纳 2017-08-10 18:38:51

解决方案2
3 2017-08-10 18:36:40