[英]How to implement groupby(column1,column2) in apache beam
我需要幫助在 python 中為以下 Spark sql 代碼編寫類似的光束代碼。
count_mnm_df = (mnm_df
.select("State", "Color", "Count")
.groupBy("State", "Color")
.agg(count("Count").alias("Total"))
.orderBy("Total", ascending=False)
到上面最直接的映射可能是 Beam SQL。有關更多信息,請參見此處。 請在此處查看相應的 Python 轉換,其中還包含有關使用的信息。 請注意,對 Python SDK 的支持是通過 Beam 相對較新的跨語言轉換支持實現的。
您還可以考慮使用執行相同計算的可用 Beam 轉換來編寫 Beam 管道。
請注意,Beam 不保證PCollection
元素的順序。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.