簡體   English   中英

Scala Spark 數據集更改 class 類型

[英]Scala Spark Dataset change class type

我有一個 dataframe 創建為MyData1的架構,然后我創建了一個列,以便新的 dataframe 遵循MyData2的架構。 現在我想將新的 dataframe 作為數據集返回,但出現以下錯誤:

[info]   org.apache.spark.sql.AnalysisException: cannot resolve '`hashed`' given input columns: [id, description];
[info]   at org.apache.spark.sql.catalyst.analysis.package$AnalysisErrorAt.failAnalysis(package.scala:42)
[info]   at org.apache.spark.sql.catalyst.analysis.CheckAnalysis$$anonfun$checkAnalysis$1$$anonfun$apply$3.applyOrElse(CheckAnalysis.scala:110)
[info]   at org.apache.spark.sql.catalyst.analysis.CheckAnalysis$$anonfun$checkAnalysis$1$$anonfun$apply$3.applyOrElse(CheckAnalysis.scala:107)
[info]   at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$transformUp$1.apply(TreeNode.scala:278)
[info]   at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$transformUp$1.apply(TreeNode.scala:278)

這是我的代碼:

import org.apache.spark.sql.{DataFrame, Dataset}

case class MyData1(id: String, description: String)


case class MyData2(id: String, description: String, hashed: String) 

object MyObject {

    def read(arg1: String, arg2: String): Dataset[MyData2] {
        var df: DataFrame = null
        val obj1 = new Matcher("cbutrer383", "e8f8chsdfd")
        val obj2 = new Matcher("cbutrer383", "g567g4rwew")
        val obj3 = new Matcher("cbutrer383", "567yr45e45")
        df = Seq(obj1, obj2, obj3).toDF("id", "description")

        df.withColumn("hashed", lit("hash"))

        val ds: Dataset[MyData2] = df.as[MyData2]
        ds
    }
}

我知道下一行可能有問題,但無法弄清楚

val ds: Dataset[MyData2] = df.as[MyData2]

我是新手,所以可能犯了一個基本錯誤。 任何人都可以幫忙嗎? TIA

您忘記將新創建的 Dataframe 分配給df

df = df.withColumn("hashed", lit("hash"))

withcolumn Spark 文檔 說

通過添加列或替換具有相同名稱的現有列來返回新數據集。

您閱讀的 function 的更好版本如下,

盡量避免null分配, varreturn語句不是真的需要

def read(arg1: String, arg2: String): Dataset[MyData2] = {
  val obj1 = new Matcher("cbutrer383", "e8f8chsdfd")
  val obj2 = new Matcher("cbutrer383", "g567g4rwew")
  val obj3 = new Matcher("cbutrer383", "567yr45e45")
  Seq(obj1, obj2, obj3).toDF("id", "description")
    .withColumn("hashed", lit("hash"))
    .as[MyData2]
}

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM