繁体   English   中英

如何在apache beam中实现groupby(column1,column2)

[英]How to implement groupby(column1,column2) in apache beam

我需要帮助在 python 中为以下 Spark sql 代码编写类似的光束代码。

count_mnm_df = (mnm_df
     .select("State", "Color", "Count") 
     .groupBy("State", "Color") 
     .agg(count("Count").alias("Total")) 
     .orderBy("Total", ascending=False)

到上面最直接的映射可能是 Beam SQL。有关更多信息,请参见此处 在此处查看相应的 Python 转换,其中还包含有关使用的信息。 请注意,对 Python SDK 的支持是通过 Beam 相对较新的跨语言转换支持实现的。

您还可以考虑使用执行相同计算的可用 Beam 转换来编写 Beam 管道。

请注意,Beam 不保证PCollection元素的顺序。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM