Scala（Zeppeline）：任务不可序列化

Question

我试图通过流媒体从Twitter获取数据。 我在twt varibale中获取数据。

val ssc = new StreamingContext(sc, Seconds(60))
val tweets = TwitterUtils.createStream(ssc, None, Array("#hadoop", "#bigdata", "#spark", "#hortonworks", "#HDP"))
//tweets.saveAsObjectFiles("/models/Twitter_files_", ".txt")
 case class Tweet(createdAt:Long, text:String, screenName:String)

val twt = tweets.window(Seconds(60))
//twt.foreach(status => println(status.text())

import sqlContext.implicits._

val temp = twt.map(status=>
  Tweet(status.getCreatedAt().getTime()/1000,status.getText(), status.getUser().getScreenName())
    ).foreachRDD(rdd=>
      rdd.toDF().registerTempTable("tweets")
    )
twt.print

ssc.start()

这是错误：

  org.apache.spark.SparkException: Task not serializable
        at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:304)
        at org.apache.spark.util.ClosureCleaner$.org$apache$spark$util$ClosureCleaner$$clean(ClosureCleaner.scala:294)
        at org.apache.spark.util.ClosureCleaner$.clean(ClosureCleaner.scala:122)
        at org.apache.spark.SparkContext.clean(SparkContext.scala:2032)
        at org.apache.spark.streaming.dstream.DStream$$anonfun$map$1.apply(DStream.scala:528)
        at org.apache.spark.streaming.dstream.DStream$$anonfun$map$1.apply(DStream.scala:528)
        at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:147)
        at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:108)
        at org.apache.spark.SparkContext.withScope(SparkContext.scala:709)
        at org.apache.spark.streaming.StreamingContext.withScope(StreamingContext.scala:266)

Caused by: java.io.NotSerializableException: org.apache.spark.streaming.StreamingContext

Answer 1

你的Tweet类不是Serializable ，所以扩展它。

这是一个常见的Spark问题，我相信，自从Spark 1.3以来，堆栈会告诉你究竟是什么尝试序列化

Scala（Zeppeline）：任务不可序列化

问题描述

1 个解决方案

解决方案1
0 2017-02-22 13:09:33

Scala（Zeppeline）：任务不可序列化

问题描述

1 个解决方案

解决方案1 0 2017-02-22 13:09:33

解决方案1
0 2017-02-22 13:09:33