繁体   English   中英

如何在 PySpark 中定义用户定义的聚合函数?

[英]How can I define user-defined aggregate functions in PySpark?

我想在 pyspark 中创建一个用户定义的聚合function。 我找到了Scala的一些文档,并希望在 Python 中实现类似的功能。

更具体地说,假设我已经实现了这样的 function:

def process_data(df: pyspark.sql.DataFrame) -> bytes:
  ...  # do something very complicated here

现在我希望能够执行以下操作:

source_df.groupBy("Foo_ID").agg(UDAF(process_data))

现在的问题是 - 我应该用什么来代替UDAF

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM