關於 Spark 的 RDD 的 take 和 takeOrdered 方法

Question

我對 Spark 的 rdd.take(n) 和 rdd.takeOrdered(n) 的工作方式有些困惑。 有人可以用一些例子向我解釋這兩種方法嗎？ 謝謝。

Answer 1

為了解釋排序的工作原理，我們創建了一個從 0 到 99 的整數的 RDD：

val myRdd = sc.parallelize(Seq.range(0, 100))

我們現在可以執行：

myRdd.take(5)

這將提取 RDD 的前 5 個元素，我們將獲得一個 Array[Int] 包含 myRDD 的前 5 個整數：'0 1 2 3 4 5'（沒有排序函數，只有前 5 個元素中的前 5 個元素位置）

takeOrdered(5) 操作以類似的方式工作：它將 RDD 的前 5 個元素提取為 Array[Int] 但我們必須有機會指定排序標准：

myRdd.takeOrdered(5)( Ordering[Int].reverse)

將根據指定的順序提取前 5 個元素。 在我們的例子中，結果將是：'99 98 97 96 95'

如果您的 RDD 中有更復雜的數據結構，您可能希望通過以下操作執行您自己的排序功能：

myRdd.takeOrdered(5)( Ordering[Int].reverse.on { x => ??? })

這將根據您的自定義排序函數將 RDD 的前 5 個元素提取為 Array[Int]。