在 Spark Dataset mapGroups 操作后，Value Type 是二進制的，甚至在函數中返回一個 String

Question

環境：

Spark version: 2.3.0
Run Mode: Local
Java version: Java 8

spark應用程序嘗試執行以下操作

1) 將輸入數據轉換成Dataset[GenericRecord]

2）按GenericRecord的key屬性分組

3) 使用 mapGroups after group 迭代值列表並得到一些字符串格式的結果

4) 將結果輸出為文本文件中的字符串。

寫入文本文件時發生錯誤。 Spark 推斷出步驟 3 中生成的 Dataset 具有二進制列，而不是 String 列。 但實際上它在 mapGroups 函數中返回一個字符串。

有沒有辦法進行列數據類型轉換或讓 Spark 知道它實際上是一個字符串列而不是二進制？


    val dslSourcePath = args(0)
    val filePath = args(1)
    val targetPath = args(2)
    val df = spark.read.textFile(filePath)

    implicit def kryoEncoder[A](implicit ct: ClassTag[A]): Encoder[A] = Encoders.kryo[A](ct)

    val mapResult = df.flatMap(abc => {
      JavaConversions.asScalaBuffer(some how return a list of Avro GenericRecord using a java library).seq;
    })

    val groupResult = mapResult.groupByKey(result => String.valueOf(result.get("key")))
      .mapGroups((key, valueList) => {
        val result = StringBuilder.newBuilder.append(key).append(",").append(valueList.count(_=>true))
        result.toString()
      })

    groupResult.printSchema()

    groupResult.write.text(targetPath + "-result-" + System.currentTimeMillis())

並且輸出說它是一個 bin

root
 |-- value: binary (nullable = true)

Spark 給出一個錯誤，它不能將二進制寫入為文本：

Exception in thread "main" org.apache.spark.sql.AnalysisException: Text data source supports only a string column, but you have binary.;
    at org.apache.spark.sql.execution.datasources.text.TextFileFormat.verifySchema(TextFileFormat.scala:55)
    at org.apache.spark.sql.execution.datasources.text.TextFileFormat.prepareWrite(TextFileFormat.scala:78)
    at org.apache.spark.sql.execution.datasources.FileFormatWriter$.write(FileFormatWriter.scala:140)
    at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand.run(InsertIntoHadoopFsRelationCommand.scala:154)
    at org.apache.spark.sql.execution.command.DataWritingCommandExec.sideEffectResult$lzycompute(commands.scala:104)
    at org.apache.spark.sql.execution.command.DataWritingCommandExec.sideEffectResult(commands.scala:102)
    at org.apache.spark.sql.execution.command.DataWritingCommandExec.doExecute(commands.scala:122)
    at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$1.apply(SparkPlan.scala:131)
    at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$1.apply(SparkPlan.scala:127)
    at org.apache.spark.sql.execution.SparkPlan$$anonfun$executeQuery$1.apply(SparkPlan.scala:155)
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
    at org.apache.spark.sql.execution.SparkPlan.executeQuery(SparkPlan.scala:152)
    at org.apache.spark.sql.execution.SparkPlan.execute(SparkPlan.scala:127)
    at org.apache.spark.sql.execution.QueryExecution.toRdd$lzycompute(QueryExecution.scala:80)
    at org.apache.spark.sql.execution.QueryExecution.toRdd(QueryExecution.scala:80)
    at org.apache.spark.sql.DataFrameWriter$$anonfun$runCommand$1.apply(DataFrameWriter.scala:654)
    at org.apache.spark.sql.DataFrameWriter$$anonfun$runCommand$1.apply(DataFrameWriter.scala:654)
    at org.apache.spark.sql.execution.SQLExecution$.withNewExecutionId(SQLExecution.scala:77)
    at org.apache.spark.sql.DataFrameWriter.runCommand(DataFrameWriter.scala:654)
    at org.apache.spark.sql.DataFrameWriter.saveToV1Source(DataFrameWriter.scala:273)
    at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:267)
    at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:225)
    at org.apache.spark.sql.DataFrameWriter.text(DataFrameWriter.scala:595)

Answer 1

正如@user10938362 所說，原因是以下代碼將所有數據編碼為字節

implicit def kryoEncoder[A](implicit ct: ClassTag[A]): Encoder[A] = Encoders.kryo[A](ct)

用以下代碼替換它只會為 GenericRecord 啟用此編碼

implicit def kryoEncoder: Encoder[GenericRecord] = Encoders.kryo

在 Spark Dataset mapGroups 操作后，Value Type 是二進制的，甚至在函數中返回一個 String

問題描述

1 個解決方案

解決方案1
0 2020-03-26 01:39:28

在 Spark Dataset mapGroups 操作后，Value Type 是二進制的，甚至在函數中返回一個 String

問題描述

1 個解決方案

解決方案1 0 2020-03-26 01:39:28

解決方案1
0 2020-03-26 01:39:28