spark：在另一個rdd內部訪問rdd

Question

我有一個大小為6000的查找rdd，lookup_rdd：RDD [String]

a1 a2 a3 a4 a5 .....

另一個rdd，data_rdd：RDD [（String，Iterable [（String，Int）]）] :( id，（item，count））具有唯一的ID，

(id1,List((a1,2), (a3,4))) (id2,List((a2,1), (a4,2), (a1,1))) (id3,List((a5,1)))

lookup_rdd中的FOREACH元素我想檢查每個id是否具有該元素，如果有，我放入計數，如果不是，則放入0，然后存儲在文件中。

什么是實現此目標的有效方法。 可能進行散列嗎？ 例如。 我想要的輸出是：

id1,2,0,4,0,0 id2,1,1,0,2,0 id3,0,0,0,0,1

我已經試過了：

val headers = lookup_rdd.zipWithIndex().persist()  
val indexing = data_rdd.map{line =>
  val id = line._1
  val item_cnt_list = line._2
  val arr = Array.fill[Byte](6000)(0)
  item_cnt_list.map(c=>(headers.lookup(c._1),c._2))
  }
indexing.collect().foreach(println)

我得到例外：

org.apache.spark.SparkException: RDD transformations and actions can only be invoked by the driver, not inside of other transformations

Answer 1

壞消息是您不能在另一個內部使用RDD。

好消息是，對於您的用例，假設6000個條目很小，那么有一個理想的解決方案：在驅動程序上收集RDD，將其廣播回集群的每個節點，並在您使用其他RDD時使用它以前做過。

val sc: SparkContext = ???
val headers = sc.broadcast(lookup_rdd.zipWithIndex.collect().toMap)
val indexing = data_rdd.map { case (_, item_cnt_list ) =>
  item_cnt_list.map { case (k, v) => (headers.value(k), v) }
}
indexing.collect().foreach(println)

spark：在另一個rdd內部訪問rdd

問題描述

1 個解決方案

解決方案1
2 已采納 2017-05-15 13:57:10

spark：在另一個rdd內部訪問rdd

問題描述

1 個解決方案

解決方案1 2 已采納 2017-05-15 13:57:10

解決方案1
2 已采納 2017-05-15 13:57:10