[英]Dataset Manipuation Using Spark Java API?
I'm new in Spark Java API.我是 Spark Java API 的新手。 I have a Dataset like this:Ds1我有一个这样的数据集:Ds1
| account| Lib | amount1 | amount2 |
+---------+------------+----------+-------------
| 222222 | | | |
| 333333 | | | |
| 888888 | | | |
| 888888 |
I want to get this Dataset:Ds2我想得到这个数据集:Ds2
| account| Lib | amount1 | amount2 |
+---------+------------+----------+-------------
| 222222 | | | |
| 333333 | | | |
| 888888 | | | |
Can someOne please guides me with a Simple expression Using Spark Java API.有人可以用一个简单的表达式来指导我使用 Spark Java API。 Thanks in Advance.提前致谢。
Dataset yourDS2 = yourDS1.dropDuplicates();数据集 yourDS2 = yourDS1.dropDuplicates();
OR或者
Dataset yourDS2 = yourDS1.dropDuplicates("account");数据集 yourDS2 = yourDS1.dropDuplicates("account");
请在 ds1 数据集之上使用 dropduplicates 方法
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.