pyspark中未定义的函数UDF？

Question

我有一个在 Dataframe 中调用的 UDF，但是我得到了未定义的 udf。

global ac
ac = sc.accumulator(0)

def incrementAC():
  ac.add(1)
  return str(ac.value)

df = sc.parallelize([('Java',90),('Scala',95),('Spark',92)]).toDF(["language","rank"])

df.withColumn("lang_and_rank", expr("concat(language,'blah')")).show()

+--------+----+-------------+
|language|rank|lang_and_rank|
+--------+----+-------------+
|    Java|  90|     Javablah|
|   Scala|  95|    Scalablah|
|   Spark|  92|    Sparkblah|
+--------+----+-------------+

myudf = udf(incrementAC,StringType())
df.withColumn("lang_and_rank", expr("concat(language,myudf())")).show()

.utils.AnalysisException: u'undefined function myudf;'

Answer 1

必须注册与expr一起使用的函数：

spark.udf.register("incrementAC", incrementAC)

从转换中使用的accumualtors也不可靠。

Answer 2

希望这可以帮助！

from pyspark.sql.functions import udf, expr, concat, col
from pyspark.sql.types import StringType

ac = sc.accumulator(0)

def incrementAC():
  ac.add(1)
  return str(ac)

#sample data
df = sc.parallelize([('Java',90),('Scala',95),('Spark',92)]).toDF(["language","rank"])

方法一：

#solution using usual udf definition
myudf = udf(incrementAC, StringType())
df.withColumn("lang_and_rank", concat(col('language'), myudf())).show()

方法二：

#another solution if you want to use 'expr' (as rightly pointed out by @user9132725)
sqlContext.udf.register("myudf", incrementAC, StringType())
df = df.withColumn("lang_and_rank", expr("concat(language, myudf())"))
df.show()

输出是：

+--------+----+-------------+
|language|rank|lang_and_rank|
+--------+----+-------------+
|    Java|  90|        Java1|
|   Scala|  95|       Scala1|
|   Spark|  92|       Spark2|
+--------+----+-------------+

Answer 3

我在重命名 Java 文件/函数后遇到了这个问题。 我重新启动了 Spark 服务器并复制了 JAR 文件，但是在尝试使用新的 JAR 文件运行当前正在运行的 Jupyter Notebook 时出现未定义函数 UDF 错误。

解决方案是重新启动我的 Jupyter Notebook。 我怀疑一些正在运行的 Python 环境没有被新的 UDF 注册刷新。

pyspark中未定义的函数UDF？

问题描述

3 个解决方案

解决方案1
3 已采纳 2017-12-23 00:43:28

解决方案2
2 2017-12-23 11:46:52

解决方案3
0 2020-03-18 18:52:08

pyspark中未定义的函数UDF？

问题描述

3 个解决方案

解决方案1 3 已采纳 2017-12-23 00:43:28

解决方案2 2 2017-12-23 11:46:52

解决方案3 0 2020-03-18 18:52:08

解决方案1
3 已采纳 2017-12-23 00:43:28

解决方案2
2 2017-12-23 11:46:52

解决方案3
0 2020-03-18 18:52:08