[英]Broadcast Variables not showing inside Partitions Apache Spark
場景和問題:我想基於查找表值向JSON對象添加兩個屬性,然后將JSON插入Mongo DB。 我有保存查找表的廣播變量。 但是,如您在代碼中所見,我無法在foreachPartition中訪問它。 它沒有給我任何錯誤,但根本不顯示任何內容。 另外,由於這個原因,我無法將JSON插入Mongo DB。 我找不到這種行為的任何解釋。 任何解釋或變通使其正常工作都倍受贊賞。
這是我的完整代碼:
object ProcessMicroBatchStreams {
val calculateDistance = udf {
(lat: String, lon: String) =>
GeoHash.getDistance(lat.toDouble, lon.toDouble) }
val DB_NAME = "IRT"
val COLLECTION_NAME = "sensordata"
val records = Array[String]()
def main(args: Array[String]): Unit = {
if (args.length < 0) {
System.err.println("Usage: ProcessMicroBatchStreams <master> <input_directory>")
System.exit(1)
}
val conf = new SparkConf()
.setMaster("local[*]")
.setAppName(this.getClass.getCanonicalName)
.set("spark.hadoop.validateOutputSpecs", "false")
/*.set("spark.executor.instances", "3")
.set("spark.executor.memory", "18g")
.set("spark.executor.cores", "9")
.set("spark.task.cpus", "1")
.set("spark.driver.memory", "10g")*/
val sc = new SparkContext(conf)
val ssc = new StreamingContext(sc, Seconds(60))
val sqc = new SQLContext(sc)
val gpsLookUpTable = MapInput.cacheMappingTables(sc, sqc).persist(StorageLevel.MEMORY_AND_DISK_SER_2)
val broadcastTable = sc.broadcast(gpsLookUpTable)
ssc.textFileStream("hdfs://localhost:9000/inputDirectory/")
.foreachRDD { rdd =>
//broadcastTable.value.show() // I can access broadcast value here
if (!rdd.partitions.isEmpty) {
val partitionedRDD = rdd.repartition(4)
partitionedRDD.foreachPartition {
partition =>
println("Inside Partition")
broadcastTable.value.show() // I cannot access broadcast value here
partition.foreach {
row =>
val items = row.split("\n")
items.foreach { item =>
val mongoColl = MongoClient()(DB_NAME)(COLLECTION_NAME)
val jsonObject = new JSONObject(item)
val latitude = jsonObject.getDouble(Constants.LATITUDE)
val longitude = jsonObject.getDouble(Constants.LONGITUDE)
// The broadcast value is not being shown here
// However, there is no error shown
// I cannot insert the value into Mongo DB
val selectedRow = broadcastTable.value
.filter("geoCode LIKE '" + GeoHash.subString(latitude, longitude) + "%'")
.withColumn("Distance", calculateDistance(col("Lat"), col("Lon")))
.orderBy("Distance")
.select(Constants.TRACK_KM, Constants.TRACK_NAME).take(1)
if (selectedRow.length != 0) {
jsonObject.put(Constants.TRACK_KM, selectedRow(0).get(0))
jsonObject.put(Constants.TRACK_NAME, selectedRow(0).get(1))
}
else {
jsonObject.put(Constants.TRACK_KM, "NULL")
jsonObject.put(Constants.TRACK_NAME, "NULL")
}
val record = JSON.parse(jsonObject.toString()).asInstanceOf[DBObject]
mongoColl.insert(record)
}
}
}
}
}
sys.addShutdownHook {
ssc.stop(true, true)
}
ssc.start()
ssc.awaitTermination()
}
}
您似乎正在嘗試廣播RDD。 嘗試這樣的事情:
broadCastVal = gpsLookUpTable.collect
broadCastTable = sc.broadcast(broadCastVal)
您應該能夠獲得期望的價值。
我對此不太確定,但是在兩次相遇之后,我正在寫這個答案。 我可以廣播RDD,但無法訪問該值。 如果我創建列表或treeMap,那么我也可以廣播和檢索值。 我不知道為什么。 雖然,我還沒有發現我們不能廣播RDD的任何地方。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.