两个按数据集分组的Spark Java API

Question

I'm new in Spark Java API. 我是Spark Java API的新手。 I want to apply two groupby (Sum et Count ) to my Dataset. 我想将两个groupby（Sum et Count）应用于我的数据集。

My Ds is something like this. 我的Ds是这样的。

+---------+------------+
|  account|    amount  |
+---------+------------+
| aaaaaa  |   1000     |
| aaaaaa  |   2000     |
| bbbbbb  |   4000     |
| cccccc  |   5000     |
| cccccc  |   3000     |

I want to get a Dataset Like this. 我想要一个这样的数据集 。

 +---------+------------+------------+
 | account |    sum     |    count   |
 +---------+------------+------------+
 | aaaaaa  |   3000     |   2        |
 | bbbbbb  |   4000     |   1        |
 | cccccc  |   8000     |   2        |

Can someone please, guide me with an expression in Spark Java API 有人可以用Spark Java API中的表达式指导我吗

Answer 1

df.groupBy("account").agg(sum("amount"),count("account")).show()

两个按数据集分组的Spark Java API

问题描述

1 个解决方案

解决方案1
0 已采纳 2018-07-11 10:17:52

两个按数据集分组的Spark Java API

问题描述

1 个解决方案

解决方案1 0 已采纳 2018-07-11 10:17:52

解决方案1
0 已采纳 2018-07-11 10:17:52