[英]On Spark's RDD's take and takeOrdered methods
我对 Spark 的 rdd.take(n) 和 rdd.takeOrdered(n) 的工作方式有些困惑。 有人可以用一些例子向我解释这两种方法吗? 谢谢。
为了解释排序的工作原理,我们创建了一个从 0 到 99 的整数的 RDD:
val myRdd = sc.parallelize(Seq.range(0, 100))
我们现在可以执行:
myRdd.take(5)
这将提取 RDD 的前 5 个元素,我们将获得一个 Array[Int] 包含 myRDD 的前 5 个整数:'0 1 2 3 4 5'(没有排序函数,只有前 5 个元素中的前 5 个元素位置)
takeOrdered(5) 操作以类似的方式工作:它将 RDD 的前 5 个元素提取为 Array[Int] 但我们必须有机会指定排序标准:
myRdd.takeOrdered(5)( Ordering[Int].reverse)
将根据指定的顺序提取前 5 个元素。 在我们的例子中,结果将是:'99 98 97 96 95'
如果您的 RDD 中有更复杂的数据结构,您可能希望通过以下操作执行您自己的排序功能:
myRdd.takeOrdered(5)( Ordering[Int].reverse.on { x => ??? })
这将根据您的自定义排序函数将 RDD 的前 5 个元素提取为 Array[Int]。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.