简体   繁体   English

使用 Spark Java API 进行数据集操作?

[英]Dataset Manipuation Using Spark Java API?

I'm new in Spark Java API.我是 Spark Java API 的新手。 I have a Dataset like this:Ds1我有一个这样的数据集:Ds1

|  account|    Lib     |  amount1 |  amount2   |
+---------+------------+----------+-------------
| 222222  |            |          |            |
| 333333  |            |          |            |
| 888888  |            |          |            |
| 888888  | 

I want to get this Dataset:Ds2我想得到这个数据集:Ds2

|  account|    Lib     |  amount1 |  amount2   |
+---------+------------+----------+-------------
| 222222  |            |          |            |
| 333333  |            |          |            |
| 888888  |            |          |            |

Can someOne please guides me with a Simple expression Using Spark Java API.有人可以用一个简单的表达式来指导我使用 Spark Java API。 Thanks in Advance.提前致谢。

Dataset yourDS2 = yourDS1.dropDuplicates();数据集 yourDS2 = yourDS1.dropDuplicates();

OR或者

Dataset yourDS2 = yourDS1.dropDuplicates("account");数据集 yourDS2 = yourDS1.dropDuplicates("account");

请在 ds1 数据集之上使用 dropduplicates 方法

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM