如何在 spark shell 中注冊 Java SPark UDF？

Question

下面是我的java udf代碼，

package com.udf;

import org.apache.spark.sql.api.java.UDF1;

public class SparkUDF implements UDF1<String, String> {
    @Override
    public String call(String arg) throws Exception {
        if (validateString(arg))
            return arg;
        return "INVALID";
    }

public static boolean validateString(String arg) {
    if (arg == null | arg.length() != 11)
        return false;
    else
        return true;
}
}

我正在用這個類構建 Jar 作為SparkUdf-1.0-SNAPSHOT.jar

我在 hive 中有一個表名作為示例，並希望在 spark shell 上的 sql 下運行。

> select UDF(name) from sample ;

使用以下命令啟動 spark-shell。

spark-shell --jars SparkUdf-1.0-SNAPSHOT.jar

誰能告訴，如何在 spark shell 上注冊 UDF 以在 spark sql 中使用它？

Answer 1

經過更多的搜索，我得到了答案，

下面是步驟，

spark-shell --jars SparkUdf-1.0-SNAPSHOT.jar

scala> import com.udf.SparkUDF;
scala> import com.udf.SparkUDF;
import org.apache.spark.sql.types.{StructType, StructField, StringType, IntegerType};

scala> spark.udf.register("myfunc", new SparkUDF(),StringType)

scala> val sql1 = """ select myfunc(name) from sample """

scala> spark.sql(sql1).show();

你會得到結果。

Answer 2

如果您嘗試從 Jupyter Notebook 和 S3 上的 UDF jar 測試 UDF：

第 1 步：將您的 UDF JAR 加載到 Jupyter Notebook 中：

%%configure -f 
{ 
    "conf": { 
        "spark.jars": "s3://s3-path/your-udf.jar" 
    } 
}

第二步：在pySpark中注冊基於scala的UDF

spark.udf.registerJavaFunction("myudf", "<udf.package>.<UDFClass>")

第 3 步：從 Spark SQL 調用 UDF

df = spark.read.parquet("s3://s3-path-to-test-data/ts_date=2021-04-27") 
df.createOrReplaceTempView('stable') 

spark.sql("select *, myudf(arg1,arg2) as result from stable ").show(5,False)

如何在 spark shell 中注冊 Java SPark UDF？

問題描述

2 個解決方案

解決方案1
2 2019-02-20 09:53:44

解決方案2
1 2021-05-03 23:05:15

如何在 spark shell 中注冊 Java SPark UDF？

問題描述

2 個解決方案

解決方案1 2 2019-02-20 09:53:44

解決方案2 1 2021-05-03 23:05:15

解決方案1
2 2019-02-20 09:53:44

解決方案2
1 2021-05-03 23:05:15