"从spark中python中的UDF（用户定义函数）访问全局变量"

Question

我正在尝试从 python 中的pyspark.sql.functions.udf<\/code>函数内部更改全局变量。但是，没有反映在全局变量中的变化。

可重现的示例以及输出是：

counter = 0

schema2 = StructType([\
    StructField("id", IntegerType(), True),
    StructField("name", StringType(), True)   
])

data2 = [(1, "A"), (2, "B")]

df = spark.createDataFrame(data = data2, schema = schema2)

def myFunc(column):
    global counter
    counter = counter + 1
    return column + 5
  
myFuncUDF = udf(myFunc, IntegerType())

display(df.withColumn('id1', myFuncUDF(df.id)))

Answer 1

我们可以创建一个自定义的累加器来存储 ID。

class SetAccumulator(AccumulatorParam):
    def zero(self, init_value: set()):
        return init_value
    
    def addInPlace(self, v1: set, v2: set):
        return v1.union(v2)

初始化 set 累加器，并在转换数据帧时从运行我们的 spark 作业的每个线程添加到累加器。 参考 -

#accumulator initialization
acc = spark.sparkContext.accumulator(set(), SetAccumulator())

schema2 = StructType([\
    StructField("id", IntegerType(), True),
    StructField("name", StringType(), True)   
])

data2 = [(1, "A"), (2, "B")]

df = spark.createDataFrame(data = data2, schema = schema2)

#access accumulator as a global variable inside the udf 
def myFunc(column):
    global acc
    int_set = set()
    int_set.add(column)
    acc += int_set
    return column + 5
  
myFuncUDF = udf(myFunc, IntegerType())

Answer 2

我认为问题是：我们如何将 udf 与全局变量一起使用。 我的问题是我的全局变量是一个数据框。 我无法在 pyspark udf 中使用数据框作为参数。 如果我将数据框声明为全局变量，那么它在应用 udf 时也会显示错误。

如果您知道逻辑和基本的东西，请提供帮助。

"从spark中python中的UDF（用户定义函数）访问全局变量"

问题描述

1 个解决方案

解决方案1
2 2021-06-27 15:30:27

解决方案2
0 2022-02-03 20:49:50

"从spark中python中的UDF（用户定义函数）访问全局变量"

问题描述

1 个解决方案

解决方案1 2 2021-06-27 15:30:27

解决方案2 0 2022-02-03 20:49:50

解决方案1
2 2021-06-27 15:30:27

解决方案2
0 2022-02-03 20:49:50