spark sql select 双列但说 FloatWritable 不能转换为 DoubleWritable

Question

My code is just to select a double column, but I get floatWritable cannot be cast to DoubleWritable error.我的代码只是 select 一个双列，但我得到 floatWritable cannot be cast to DoubleWritable 错误。 Is that because spark has different procedure when reading hive double column?那是因为spark在读取hive双列时有不同的程序吗？

val testBase = spark.sql(
      s"""select
         | cast(clk_rate_7_day as double)
         |from %s
         |where ds between date_sub('%s', 0) and '%s'
         |union all
         |select
         | cast(clk_rate_7_day as double)
         |from %s
         |where ds between date_sub('%s', 0) and '%s'
         |""".stripMargin.format(trainDataInput, jobDate, jobDate, trainDataYuncunInput, jobDate, jobDate))
testBase.show()

but I get this error,但我得到这个错误，

testBase: org.apache.spark.sql.DataFrame = [clk_rate_7_day: double]
org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 2.0 failed 4 times, most recent failure: Lost task 0.3 in stage 2.0 (TID 11, hadoop4445.jd.163.org, executor 5): java.lang.ClassCastException: org.apache.hadoop.io.FloatWritable cannot be cast to org.apache.hadoop.io.DoubleWritable
    at org.apache.hadoop.hive.serde2.objectinspector.primitive.WritableDoubleObjectInspector.get(WritableDoubleObjectInspector.java:36)
    at org.apache.spark.sql.hive.HadoopTableReader$$anonfun$14$$anonfun$apply$8.apply(TableReader.scala:423)
    at org.apache.spark.sql.hive.HadoopTableReader$$anonfun$14$$anonfun$apply$8.apply(TableReader.scala:423)
    at org.apache.spark.sql.hive.HadoopTableReader$$anonfun$fillObject$2.apply(TableReader.scala:460)
    at org.apache.spark.sql.hive.HadoopTableReader$$anonfun$fillObject$2.apply(TableReader.scala:451)
    at scala.collection.Iterator$$anon$11.next(Iterator.scala:410)
    at scala.collection.Iterator$$anon$11.next(Iterator.scala:410)
    at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIteratorForCodegenStage1.processNext(Unknown Source)
    at org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43)
    at org.apache.spark.sql.execution.WholeStageCodegenExec$$anonfun$13$$anon$1.hasNext(WholeStageCodegenExec.scala:636)
    at org.apache.spark.sql.execution.SparkPlan$$anonfun$2.apply(SparkPlan.scala:255)
    at org.apache.spark.sql.execution.SparkPlan$$anonfun$2.apply(SparkPlan.scala:247)

Answer 1

Problem solved!问题解决了！

It turns out that I used spark to write this column as a FloatType, but its hive configuration is a Double, and then ended up with this cast error.原来我是用spark把这个专栏写成FloatType的，但是它的hive配置是Double，然后就报了这个cast error。

Btw, why Float cannot be cast into Double in spark?顺便说一句，为什么 Float 不能在 Spark 中转换为 Double？

spark sql select 双列但说 FloatWritable 不能转换为 DoubleWritable

问题描述

1 个解决方案

解决方案1
0 2022-09-13 06:50:22

spark sql select 双列但说 FloatWritable 不能转换为 DoubleWritable

问题描述

1 个解决方案

解决方案1 0 2022-09-13 06:50:22

解决方案1
0 2022-09-13 06:50:22