如何知道Spark使用Scala推断出哪种RDD类型

Question

我正在尝试以下示例

val lista = List(("a", 3), ("a", 1), ("b", 7), ("a", 5))
val rdd = sc.parallelize(lista)

然后在shell中我得到以下内容

rdd: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[40] at parallelize at <console>:30

但是由于某种原因，我仍然没有想到我能够执行这句话

val resAgg = rdd.aggregateByKey(new HashSet[Int])(_+_, _++_)

将其放入外壳

resAgg: org.apache.spark.rdd.RDD[(String, scala.collection.mutable.HashSet[Int])] = ShuffledRDD[41] at aggregateByKey at <console>:32

所以我有一些问题：

1.-名为rdd的var的真正RDD类型是什么？ 因为在外壳程序中它显示的类型是org.apache.spark.rdd.RDD [（String，Int）]，但是在API上看，RDD类没有方法aggregateByKey。 顺便说一下，JavaPairRDD类确实具有AggregateByKey方法

2.-我如何验证/知道RDD的真实类型

3.- ParallelCollectionRDD显示了什么？ 我在github上寻找它，发现是一个私有类，所以我猜这是为什么它不在scala API上出现，但是它的作用是什么？

我正在使用Spark 1.6.2

Answer 1

您所看到的是隐式转换的效果：

rdd 确实有类型org.apache.spark.rdd.RDD[(String, Int)]

当您尝试调用aggregateByKey且该类型不存在时，编译器会寻找将某种隐式转换为某种类型的隐式转换，并将此转换转换为PairRDDFunctions ：

 implicit def rddToPairRDDFunctions[K, V](rdd: RDD[(K, V)]) (implicit kt: ClassTag[K], vt: ClassTag[V], ord: Ordering[K] = null): PairRDDFunctions[K, V] = { new PairRDDFunctions(rdd) }

然后，调用PairRDDFunctions.aggregateByKey 。

至于最后一个问题：

那是什么ParallelCollectionRDD

RDD是具有许多子类的抽象类，这是其中之一。 一般来说，每个子类负责在RDD上执行的不同操作，例如读取/写入/改组/检查点等。此特定类型在调用SparkContext.parallelize时使用-意味着，它用于并行化驱动程序中的集合。 确实，它是私有的，您通常不必关心实际上拥有的RDD的哪种子类型。

如何知道Spark使用Scala推断出哪种RDD类型

问题描述

1 个解决方案

解决方案1
4 2016-07-20 07:25:07

如何知道Spark使用Scala推断出哪种RDD类型

问题描述

1 个解决方案

解决方案1 4 2016-07-20 07:25:07

解决方案1
4 2016-07-20 07:25:07