繁体   English   中英

Scala:使用闭包时任务不可序列化

[英]Scala: Task not serializable when using closure

所以我对 Spark 和 Scala 相当陌生,根据我的理解,您应该能够将闭包传递给 map 函数并让它修改值,但是在尝试执行此操作时出现Task not serializable错误。

我的代码如下:

// Spark Context
val sparkContext = spark.sparkContext
val random = scala.util.Random

// RDD Initialization
val array = Seq.fill(500)(random.nextInt(51))
val RDD = sc.parallelize(array)

// Spark Operations for Count, Sum, and Mean
var count = RDD.count()
var sum = RDD.reduce(_+_)
val mean = sum / count;

//Output Count, Sum, and Mean
println("Count: " + count)
println("Sum: " + sum)
println("Mean: " + mean)

val difference = (x:Int) => {x - mean}

var differences = RDD.map(difference)

任何帮助将不胜感激

不要定义函数,而是尝试使用 val fun

val difference = (x:Int) => {x-mean}

当您使用def定义一个函数时,Spark 会尝试序列化具有此函数的对象。 这通常会导致 TaskNotSerializable,因为该对象中可能存在不可序列化的内容(val 或 var)。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM