[英]How to register the Java SPark UDF in spark shell?
下面是我的java udf代碼,
package com.udf;
import org.apache.spark.sql.api.java.UDF1;
public class SparkUDF implements UDF1<String, String> {
@Override
public String call(String arg) throws Exception {
if (validateString(arg))
return arg;
return "INVALID";
}
public static boolean validateString(String arg) {
if (arg == null | arg.length() != 11)
return false;
else
return true;
}
}
我正在用這個類構建 Jar 作為SparkUdf-1.0-SNAPSHOT.jar
我在 hive 中有一個表名作為示例,並希望在 spark shell 上的 sql 下運行。
> select UDF(name) from sample ;
使用以下命令啟動 spark-shell。
spark-shell --jars SparkUdf-1.0-SNAPSHOT.jar
誰能告訴,如何在 spark shell 上注冊 UDF 以在 spark sql 中使用它?
經過更多的搜索,我得到了答案,
下面是步驟,
spark-shell --jars SparkUdf-1.0-SNAPSHOT.jar
scala> import com.udf.SparkUDF;
scala> import com.udf.SparkUDF;
import org.apache.spark.sql.types.{StructType, StructField, StringType, IntegerType};
scala> spark.udf.register("myfunc", new SparkUDF(),StringType)
scala> val sql1 = """ select myfunc(name) from sample """
scala> spark.sql(sql1).show();
你會得到結果。
如果您嘗試從 Jupyter Notebook 和 S3 上的 UDF jar 測試 UDF:
第 1 步:將您的 UDF JAR 加載到 Jupyter Notebook 中:
%%configure -f
{
"conf": {
"spark.jars": "s3://s3-path/your-udf.jar"
}
}
第二步:在pySpark中注冊基於scala的UDF
spark.udf.registerJavaFunction("myudf", "<udf.package>.<UDFClass>")
第 3 步:從 Spark SQL 調用 UDF
df = spark.read.parquet("s3://s3-path-to-test-data/ts_date=2021-04-27")
df.createOrReplaceTempView('stable')
spark.sql("select *, myudf(arg1,arg2) as result from stable ").show(5,False)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.