我應該在兩個不同的 RDD 上重用 HashPartitioner 嗎？

Question

在所有示例中，我總是看到 partitionBy 接收一個 HashPartitioner 的新實例

val rddTenP = rdd.partitionBy(new HashPartitioner(10))

我正在加入兩個 RDD。 它們的鍵列具有來自同一組userId值。 我應該對它們進行分區以提高連接效率嗎？ 如果是，我應該創建一個 HashPartitioner 實例 hp

val hp: HashPartitioner = new spark.HashPartitioner(84)並將 hp 傳遞給兩個 partitionBy 方法，以便讓要加入的行落到同一個節點？ 這是 partitionBy 的工作方式嗎？

Answer 1

您正在使用相同的分區器來優化您的連接（通過避免洗牌）的正確方法。 您可以使用哈希分區器的相同實例，因為它是不可變的。 但是，如果您使用 2 個具有相同分區參數數量的哈希分區器實例（粗略地說，partitionIndex = key.hasCode mod numOfPartitions），它也可以工作，因為它們是相等的：

 override def equals(other: Any): Boolean = other match {
    case h: HashPartitioner =>
      h.numPartitions == numPartitions
    case _ =>
      false
  }

有關其工作原理的詳細信息和詳細說明，請參閱： https : //github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/Partitioner.scala以及HashPartitioner 是如何工作的？

我應該在兩個不同的 RDD 上重用 HashPartitioner 嗎？

問題描述

1 個解決方案

解決方案1
2 已采納 2016-05-05 18:38:40

我應該在兩個不同的 RDD 上重用 HashPartitioner 嗎？

問題描述

1 個解決方案

解決方案1 2 已采納 2016-05-05 18:38:40

解決方案1
2 已采納 2016-05-05 18:38:40