简体   繁体   English

两个按数据集分组的Spark Java API

[英]Two Group By Dataset Spark Java API

I'm new in Spark Java API. 我是Spark Java API的新手。 I want to apply two groupby (Sum et Count ) to my Dataset. 我想将两个groupby(Sum et Count)应用于我的数据集。

My Ds is something like this. 我的Ds是这样的。

+---------+------------+
|  account|    amount  |
+---------+------------+
| aaaaaa  |   1000     |
| aaaaaa  |   2000     |
| bbbbbb  |   4000     |
| cccccc  |   5000     |
| cccccc  |   3000     |

I want to get a Dataset Like this. 我想要一个这样的数据集

 +---------+------------+------------+
 | account |    sum     |    count   |
 +---------+------------+------------+
 | aaaaaa  |   3000     |   2        |
 | bbbbbb  |   4000     |   1        |
 | cccccc  |   8000     |   2        |

Can someone please, guide me with an expression in Spark Java API 有人可以用Spark Java API中的表达式指导我吗

df.groupBy("account").agg(sum("amount"),count("account")).show()

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM