簡體   English   中英

如何在 PySpark 中定義用戶定義的聚合函數?

[英]How can I define user-defined aggregate functions in PySpark?

我想在 pyspark 中創建一個用戶定義的聚合function。 我找到了Scala的一些文檔,並希望在 Python 中實現類似的功能。

更具體地說,假設我已經實現了這樣的 function:

def process_data(df: pyspark.sql.DataFrame) -> bytes:
  ...  # do something very complicated here

現在我希望能夠執行以下操作:

source_df.groupBy("Foo_ID").agg(UDAF(process_data))

現在的問題是 - 我應該用什么來代替UDAF

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM