簡體   English   中英

如何在apache beam中實現groupby(column1,column2)

[英]How to implement groupby(column1,column2) in apache beam

我需要幫助在 python 中為以下 Spark sql 代碼編寫類似的光束代碼。

count_mnm_df = (mnm_df
     .select("State", "Color", "Count") 
     .groupBy("State", "Color") 
     .agg(count("Count").alias("Total")) 
     .orderBy("Total", ascending=False)

到上面最直接的映射可能是 Beam SQL。有關更多信息,請參見此處 在此處查看相應的 Python 轉換,其中還包含有關使用的信息。 請注意,對 Python SDK 的支持是通過 Beam 相對較新的跨語言轉換支持實現的。

您還可以考慮使用執行相同計算的可用 Beam 轉換來編寫 Beam 管道。

請注意,Beam 不保證PCollection元素的順序。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM