為日期創建和使用 Spark-Hive UDF

Question

注意：這個問題鏈接自這個問題： Creting UDF function with NonPrimitive Data Type and using in Spark-sql Query: Scala

我在 scala 中創建了一個方法：

    package test.udf.demo
    object UDF_Class {
    def transformDate( dateColumn: String, df: DataFrame) : DataFrame = {
    val sparksession = SparkSession.builder().appName("App").getOrCreate()
    val d=df.withColumn("calculatedCol", month(to_date(from_unixtime(unix_timestamp(col(dateColumn),  "dd-MM-yyyy")))))
    df.withColumn("date1",  when(col("calculatedCol") === "01",  concat(concat(year(to_date(from_unixtime(unix_timestamp(col("calculatedCol"), "dd-MM- yyyy"))))-1,  lit('-')),substring(year(to_date(from_unixtime(unix_timestamp(col("calculatedCol")), "dd-MM- yyyy"))),3,4))
    .when(col("calculatedCol") ===  "02",concat(concat(year(to_date(from_unixtime(unix_timestamp(col("calculatedCol"), "dd-MM- yyyy"))))-1,  lit('-')),substring(year(to_date(from_unixtime(unix_timestamp(col("calculatedCol")), "dd-MM- yyyy"))),3,4)))
    .when(col("calculatedCol") ===  "03",concat(concat(year(to_date(from_unixtime(unix_timestamp(col("calculatedCol"), "dd-MM- yyyy"))))-1,  lit('-')),substring(year(to_date(from_unixtime(unix_timestamp(col("calculatedCol")), "dd-MM-yyyy"))),3,4)))
    .otherwise(concat(concat(year(to_date(from_unixtime(unix_timestamp(col("calculatedCol"), "dd-MM-  yyyy")))), lit('-')), substring(year(to_date(from_unixtime(unix_timestamp(col("calculatedCol"), "dd-MM-yyyy")))) + 1, 3, 4))))) 
    val d1=sparksession.udf.register("transform",transformDate _)
    d
    }
    }

我想在我的 sparksql 查詢中使用這個 transformDate 方法，它是相同 package 中的單獨 scala 代碼。

    package test.udf.demo
    import test.udf.demo.transformDate
    //sparksession
    sparksession.sql("select id,name,salary,transform(dob) from dbname.tablename")

但我得到一個錯誤

不是默認數據庫中的臨時或永久注冊 function

有人可以指導我嗎？

Answer 1

AFAIK Spark 用戶定義的 udfs 不能接受或返回DataFrame 。 那是阻止您的 udf 注冊

Answer 2

首先 Spark SQL UDF 是基於行的 function。 不是基於 Dataframe 的方法。 聚合 UDF 也采用一系列 Row。 所以UDF定義是錯誤的。 如果我正確理解了您的要求，您希望創建一個可配置的 Case 語句表達式。 通過 expr() 可以輕松實現

import spark.implicits._
val exprStr = "case when calculatedCol='01' then <here goes your code statements> as FP"
val modifiedDf = sql("""select id,name,salary,$exprStr  from dbname.tablename""")

它會工作

為日期創建和使用 Spark-Hive UDF

問題描述

2 個解決方案

解決方案1
0 2020-05-07 16:17:08

解決方案2
0 2020-05-07 16:25:51

為日期創建和使用 Spark-Hive UDF

問題描述

2 個解決方案

解決方案1 0 2020-05-07 16:17:08

解決方案2 0 2020-05-07 16:25:51

解決方案1
0 2020-05-07 16:17:08

解決方案2
0 2020-05-07 16:25:51