使用 Spark Java API 进行数据集操作？

Question

I'm new in Spark Java API.我是 Spark Java API 的新手。 I have a Dataset like this:Ds1我有一个这样的数据集：Ds1

|  account|    Lib     |  amount1 |  amount2   |
+---------+------------+----------+-------------
| 222222  |            |          |            |
| 333333  |            |          |            |
| 888888  |            |          |            |
| 888888  |

I want to get this Dataset:Ds2我想得到这个数据集：Ds2

|  account|    Lib     |  amount1 |  amount2   |
+---------+------------+----------+-------------
| 222222  |            |          |            |
| 333333  |            |          |            |
| 888888  |            |          |            |

Can someOne please guides me with a Simple expression Using Spark Java API.有人可以用一个简单的表达式来指导我使用 Spark Java API。 Thanks in Advance.提前致谢。

Answer 1

Dataset yourDS2 = yourDS1.dropDuplicates();数据集 yourDS2 = yourDS1.dropDuplicates();

OR或者

Dataset yourDS2 = yourDS1.dropDuplicates("account");数据集 yourDS2 = yourDS1.dropDuplicates("account");

Answer 2

请在 ds1 数据集之上使用 dropduplicates 方法

使用 Spark Java API 进行数据集操作？

问题描述

2 个解决方案

解决方案1
1 2020-09-09 23:35:26

解决方案2
0 已采纳 2018-06-20 10:28:59

使用 Spark Java API 进行数据集操作？

问题描述

2 个解决方案

解决方案1 1 2020-09-09 23:35:26

解决方案2 0 已采纳 2018-06-20 10:28:59

解决方案1
1 2020-09-09 23:35:26

解决方案2
0 已采纳 2018-06-20 10:28:59