Scala / Spark：為什么在本地和群集中使用廣播運行spark程序時為什么會得到不同的結果？

Question

我有一個DataFrame，我想獲取先前分區的值，我使用廣播。這是我的代碼：

val arr = Array((1, 1,1), (7, 2,1), (3, 3,2), (5, 4,2), (7, 5,3), (9, 6,3), (7, 7,4), (9, 8,4))
    var rdd = sc.parallelize(arr, 4)
    val bro=sc.broadcast(new mutable.HashMap[Int,Int])
     rdd=rdd.mapPartitionsWithIndex(
         (partIdx, iter) => {
           val iterArray=iter.toArray
           bro.value+=(partIdx->iterArray.last._1)
           iterArray.toIterator
         })
   rdd=rdd.mapPartitionsWithIndex(
     (partIdx, iter) => {
       val iterArray = iter.toArray
       var flag=true
       if(partIdx!=0) {
         while (flag) {
           if (bro.value.contains(partIdx - 1)) {
             flag = false
           }
         }
         println(bro.value.get(partIdx-1).get)
       }

       iter
     })
rdd.collect()

在第一個mapPartitionsWithIndex函數中，我將每個分區的值廣播；在第二個mapPartitionsWithIndex函數中，我得到廣播的值。 該代碼在本地運行良好，但是在群集中不起作用，該程序無法獲取先前分區的值，為什么在本地和群集中使用廣播運行spark程序時卻得到不同的結果？

Answer 1

您得到不同的結果，因為您的代碼不正確。 Broadcasted對象不得修改 ：

廣播變量使程序員可以在每台計算機上保留一個只讀變量，而不用隨任務一起發送它的副本。

之所以可行，是因為您利用了local模式的實現細節，所有線程都在一台機器上運行。 這使其類似於理解閉包中描述的錯誤。

Scala / Spark：為什么在本地和群集中使用廣播運行spark程序時為什么會得到不同的結果？

問題描述

1 個解決方案

解決方案1
1 已采納 2017-09-08 07:55:54

Scala / Spark：為什么在本地和群集中使用廣播運行spark程序時為什么會得到不同的結果？

問題描述

1 個解決方案

解決方案1 1 已采納 2017-09-08 07:55:54

解決方案1
1 已采納 2017-09-08 07:55:54