如何在 PySpark 中定义用户定义的聚合函数？

Question

我想在 pyspark 中创建一个用户定义的聚合function。 我找到了Scala的一些文档，并希望在 Python 中实现类似的功能。

更具体地说，假设我已经实现了这样的 function：

def process_data(df: pyspark.sql.DataFrame) -> bytes:
  ...  # do something very complicated here

现在我希望能够执行以下操作：

source_df.groupBy("Foo_ID").agg(UDAF(process_data))

现在的问题是 - 我应该用什么来代替UDAF ？

Answer 1

PySpark不直接支持UDAF ，所以我们必须手动进行聚合。

参考：