無法在Intellij Idea中的Scala工作表中運行Spark

Question

如果將以下代碼放入擴展了應用程序特征的對象中，並使用Idea的run命令運行該代碼，則該代碼將run 。

但是，當我嘗試從工作表運行它時，遇到以下情況之一：

1-如果第一行存在，我得到：

任務無法序列化：java.io.NotSerializableException：A $ A34 $ A $ A34

2-如果第一行被注釋掉，我得到：

無法訪問內部類A $ A35 $ A $ A35 $ A12的編碼器，而無法訪問定義該類的范圍。

//First line!
org.apache.spark.sql.catalyst.encoders.OuterScopes.addOuterScope(this)

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.types.{IntegerType, StructField, StructType}

case class AClass(id: Int, f1: Int, f2: Int)
val spark = SparkSession.builder()
  .master("local[*]")
  .appName("Test App")
  .getOrCreate()
import spark.implicits._

val schema = StructType(Array(
  StructField("id", IntegerType),
  StructField("f1", IntegerType),
  StructField("f2", IntegerType)))

val df = spark.read.schema(schema)
  .option("header", "true")
  .csv("dataset.csv")

// Displays the content of the DataFrame to stdout
df.show()
val ads = df.as[AClass]

//This is the line that causes serialization error
ads.foreach(x => println(x))

該項目已使用Idea的Scala插件創建，這是我的build.sbt：

   ...
   scalaVersion := "2.10.6"
   scalacOptions += "-unchecked"
   libraryDependencies ++= Seq(
       "org.apache.spark" % "spark-core_2.10" % "2.1.0",
       "org.apache.spark" % "spark-sql_2.10" % "2.1.0",
       "org.apache.spark" % "spark-mllib_2.10" % "2.1.0"
       )

我嘗試了此答案中的解決方案。 但是它不適用於我正在使用的Idea Ultimate 2017.1，而且，當我使用工作表時，我盡可能不要在工作表中添加額外的對象。

如果我在數據集對象上使用collect()方法並獲取“ Aclass”實例的數組，則也不會再有錯誤。 它正在嘗試直接與導致錯誤的DS一起使用。

Answer 1

使用Eclipse兼容模式（在Languages＆Frameworks中打開Preferences-> type scala->，選擇Scala-> Choose Worksheet->僅選擇Eclipse兼容模式）請參閱https://gist.github.com/RAbraham/585939e5390d46a7d6f8

無法在Intellij Idea中的Scala工作表中運行Spark

問題描述

1 個解決方案

解決方案1
1 2017-04-05 07:56:45

無法在Intellij Idea中的Scala工作表中運行Spark

問題描述

1 個解決方案

解決方案1 1 2017-04-05 07:56:45

解決方案1
1 2017-04-05 07:56:45