簡體   English   中英

關於 Spark 的 RDD 的 take 和 takeOrdered 方法

[英]On Spark's RDD's take and takeOrdered methods

我對 Spark 的 rdd.take(n) 和 rdd.takeOrdered(n) 的工作方式有些困惑。 有人可以用一些例子向我解釋這兩種方法嗎? 謝謝。

為了解釋排序的工作原理,我們創建了一個從 0 到 99 的整數的 RDD:

val myRdd = sc.parallelize(Seq.range(0, 100))

我們現在可以執行:

myRdd.take(5)

這將提取 RDD 的前 5 個元素,我們將獲得一個 Array[Int] 包含 myRDD 的前 5 個整數:'0 1 2 3 4 5'(沒有排序函數,只有前 5 個元素中的前 5 個元素位置)

takeOrdered(5) 操作以類似的方式工作:它將 RDD 的前 5 個元素提取為 Array[Int] 但我們必須有機會指定排序標准:

myRdd.takeOrdered(5)( Ordering[Int].reverse)

將根據指定的順序提取前 5 個元素。 在我們的例子中,結果將是:'99 98 97 96 95'

如果您的 RDD 中有更復雜的數據結構,您可能希望通過以下操作執行您自己的排序功能:

myRdd.takeOrdered(5)( Ordering[Int].reverse.on { x => ??? })

這將根據您的自定義排序函數將 RDD 的前 5 個元素提取為 Array[Int]。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM