繁体   English   中英

关于 Spark 的 RDD 的 take 和 takeOrdered 方法

[英]On Spark's RDD's take and takeOrdered methods

我对 Spark 的 rdd.take(n) 和 rdd.takeOrdered(n) 的工作方式有些困惑。 有人可以用一些例子向我解释这两种方法吗? 谢谢。

为了解释排序的工作原理,我们创建了一个从 0 到 99 的整数的 RDD:

val myRdd = sc.parallelize(Seq.range(0, 100))

我们现在可以执行:

myRdd.take(5)

这将提取 RDD 的前 5 个元素,我们将获得一个 Array[Int] 包含 myRDD 的前 5 个整数:'0 1 2 3 4 5'(没有排序函数,只有前 5 个元素中的前 5 个元素位置)

takeOrdered(5) 操作以类似的方式工作:它将 RDD 的前 5 个元素提取为 Array[Int] 但我们必须有机会指定排序标准:

myRdd.takeOrdered(5)( Ordering[Int].reverse)

将根据指定的顺序提取前 5 个元素。 在我们的例子中,结果将是:'99 98 97 96 95'

如果您的 RDD 中有更复杂的数据结构,您可能希望通过以下操作执行您自己的排序功能:

myRdd.takeOrdered(5)( Ordering[Int].reverse.on { x => ??? })

这将根据您的自定义排序函数将 RDD 的前 5 个元素提取为 Array[Int]。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM