繁体   English   中英

如何知道Spark使用Scala推断出哪种RDD类型

[英]How to know which is the RDD type inferred by Spark using Scala

我正在尝试以下示例

val lista = List(("a", 3), ("a", 1), ("b", 7), ("a", 5))
val rdd = sc.parallelize(lista)

然后在shell中我得到以下内容

rdd: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[40] at parallelize at <console>:30

但是由于某种原因,我仍然没有想到我能够执行这句话

val resAgg = rdd.aggregateByKey(new HashSet[Int])(_+_, _++_)

将其放入外壳

resAgg: org.apache.spark.rdd.RDD[(String, scala.collection.mutable.HashSet[Int])] = ShuffledRDD[41] at aggregateByKey at <console>:32

所以我有一些问题:

1.-名为rdd的var的真正RDD类型是什么? 因为在外壳程序中它显示的类型是org.apache.spark.rdd.RDD [(String,Int)],但是在API上看,RDD类没有方法aggregateByKey。 顺便说一下,JavaPairRDD类确实具有AggregateByKey方法

2.-我如何验证/知道RDD的真实类型

3.- ParallelCollectionRDD显示了什么? 我在github上寻找它,发现是一个私有类,所以我猜这是为什么它不在scala API上出现,但是它的作用是什么?

我正在使用Spark 1.6.2

您所看到的是隐式转换的效果:

  • rdd 确实有类型org.apache.spark.rdd.RDD[(String, Int)]
  • 当您尝试调用aggregateByKey且该类型不存在时,编译器会寻找将某种隐式转换为某种类型的隐式转换,并将转换转换为PairRDDFunctions

     implicit def rddToPairRDDFunctions[K, V](rdd: RDD[(K, V)]) (implicit kt: ClassTag[K], vt: ClassTag[V], ord: Ordering[K] = null): PairRDDFunctions[K, V] = { new PairRDDFunctions(rdd) } 
  • 然后,调用PairRDDFunctions.aggregateByKey

至于最后一个问题:

那是什么ParallelCollectionRDD

RDD是具有许多子类的抽象类,这是其中之一。 一般来说,每个子类负责在RDD上执行的不同操作,例如读取/写入/改组/检查点等。此特定类型在调用SparkContext.parallelize时使用-意味着,它用于并行化驱动程序中的集合。 确实,它是私有的,您通常不必关心实际上拥有的RDD的哪种子类型。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM