如何在 PySpark 中定義用戶定義的聚合函數？

Question

我想在 pyspark 中創建一個用戶定義的聚合function。 我找到了Scala的一些文檔，並希望在 Python 中實現類似的功能。

更具體地說，假設我已經實現了這樣的 function：

def process_data(df: pyspark.sql.DataFrame) -> bytes:
  ...  # do something very complicated here

現在我希望能夠執行以下操作：

source_df.groupBy("Foo_ID").agg(UDAF(process_data))

現在的問題是 - 我應該用什么來代替UDAF ？

Answer 1

PySpark不直接支持UDAF ，所以我們必須手動進行聚合。

參考：