簡體   English   中英

兩個按數據集分組的Spark Java API

[英]Two Group By Dataset Spark Java API

我是Spark Java API的新手。 我想將兩個groupby(Sum et Count)應用於我的數據集。

我的Ds是這樣的。

+---------+------------+
|  account|    amount  |
+---------+------------+
| aaaaaa  |   1000     |
| aaaaaa  |   2000     |
| bbbbbb  |   4000     |
| cccccc  |   5000     |
| cccccc  |   3000     |

我想要一個這樣的數據集

 +---------+------------+------------+
 | account |    sum     |    count   |
 +---------+------------+------------+
 | aaaaaa  |   3000     |   2        |
 | bbbbbb  |   4000     |   1        |
 | cccccc  |   8000     |   2        |

有人可以用Spark Java API中的表達式指導我嗎

df.groupBy("account").agg(sum("amount"),count("account")).show()

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM