Apache Spark-無法理解Scala示例

Question

我正在嘗試了解此位置上的Scala代碼。 （我來自Java背景）。

https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/GroupByTest.scala

我感到在下面的部分完全迷路了

val pairs1 = sc.parallelize(0 until numMappers, numMappers).flatMap { p =>
  val ranGen = new Random
  var arr1 = new Array[(Int, Array[Byte])](numKVPairs)
  for (i <- 0 until numKVPairs) {
    val byteArr = new Array[Byte](valSize)
    ranGen.nextBytes(byteArr)
    arr1(i) = (ranGen.nextInt(Int.MaxValue), byteArr)
  }
  arr1
}.cache()

我知道並行化和平面映射的作用。 我不知道如何對arr1進行初始化。 是int類型還是其他類型的字節數組？ 另外，它在循環邏輯內部做了什么。

Answer 1

var arr1 = new Array[(Int, Array[Byte])](numKVPairs)

只需創建一個大小為numKVPairs且類型為(Int, Array[Byte])數組（一對int和字節數組）

之后， arr1會填充隨機數據。

Answer 2

var arr1 = new Array[(Int, Array[Byte])](numKVPairs)

創建一個成對的數組類型（Int，Array [Byte]）。 那是對的第一個元素是Int類型，第二個元素是Array [Byte]。

Apache Spark-無法理解Scala示例

問題描述

2 個解決方案

解決方案1
1 已采納 2016-01-27 20:02:29

解決方案2
1 2016-01-28 04:03:11

Apache Spark-無法理解Scala示例

問題描述

2 個解決方案

解決方案1 1 已采納 2016-01-27 20:02:29

解決方案2 1 2016-01-28 04:03:11

解決方案1
1 已采納 2016-01-27 20:02:29

解決方案2
1 2016-01-28 04:03:11