关于 Spark 的 RDD 的 take 和 takeOrdered 方法

Question

我对 Spark 的 rdd.take(n) 和 rdd.takeOrdered(n) 的工作方式有些困惑。 有人可以用一些例子向我解释这两种方法吗？ 谢谢。

Answer 1

为了解释排序的工作原理，我们创建了一个从 0 到 99 的整数的 RDD：

val myRdd = sc.parallelize(Seq.range(0, 100))

我们现在可以执行：

myRdd.take(5)

这将提取 RDD 的前 5 个元素，我们将获得一个 Array[Int] 包含 myRDD 的前 5 个整数：'0 1 2 3 4 5'（没有排序函数，只有前 5 个元素中的前 5 个元素位置）

takeOrdered(5) 操作以类似的方式工作：它将 RDD 的前 5 个元素提取为 Array[Int] 但我们必须有机会指定排序标准：

myRdd.takeOrdered(5)( Ordering[Int].reverse)

将根据指定的顺序提取前 5 个元素。 在我们的例子中，结果将是：'99 98 97 96 95'

如果您的 RDD 中有更复杂的数据结构，您可能希望通过以下操作执行您自己的排序功能：

myRdd.takeOrdered(5)( Ordering[Int].reverse.on { x => ??? })

这将根据您的自定义排序函数将 RDD 的前 5 个元素提取为 Array[Int]。