兩個按數據集分組的Spark Java API

Question

我是Spark Java API的新手。 我想將兩個groupby（Sum et Count）應用於我的數據集。

我的Ds是這樣的。

+---------+------------+
|  account|    amount  |
+---------+------------+
| aaaaaa  |   1000     |
| aaaaaa  |   2000     |
| bbbbbb  |   4000     |
| cccccc  |   5000     |
| cccccc  |   3000     |

我想要一個這樣的數據集 。

 +---------+------------+------------+
 | account |    sum     |    count   |
 +---------+------------+------------+
 | aaaaaa  |   3000     |   2        |
 | bbbbbb  |   4000     |   1        |
 | cccccc  |   8000     |   2        |

有人可以用Spark Java API中的表達式指導我嗎

Answer 1

df.groupBy("account").agg(sum("amount"),count("account")).show()

兩個按數據集分組的Spark Java API

問題描述

1 個解決方案

解決方案1
0 已采納 2018-07-11 10:17:52

兩個按數據集分組的Spark Java API

問題描述

1 個解決方案

解決方案1 0 已采納 2018-07-11 10:17:52

解決方案1
0 已采納 2018-07-11 10:17:52