从 Scala Spark 中的 RDD[type] 获取不同的行

Question

Let say I have an RDD of format like this RDD[employee] and sample data as follows :-假设我有一个像这种 RDD[employee] 格式的 RDD，样本数据如下：-

FName,LName,Department,Salary
dubert,tomasz ,paramedic i/c,91080.00,
edwards,tim p,lieutenant,114846.00,
edwards,tim p,lieutenant,234846.00,
edwards,tim p,lieutenant,354846.00,
elkins,eric j,police,104628.00,
estrada,luis f,police officer,96060.00,
ewing,marie a,clerk,53076.00,
ewing,marie a,clerk,13076.00,
ewing,marie a,clerk,63076.00,
finn,sean p,firefighter,87006.00,
fitch,jordan m,law clerk,14.51
fitch,jordan m,law clerk,14.51

Expected Output :-预期输出：-

dubert,tomasz ,paramedic i/c,91080.00,
edwards,tim p,lieutenant,354846.00,
elkins,eric j,police,104628.00,
estrada,luis f,police officer,96060.00,
ewing,marie a,clerk,63076.00,
finn,sean p,firefighter,87006.00,
fitch,jordan m,law clerk,14.51

I want a single row of each based on distinct Fname我想要基于不同 Fname 的每一行

Answer 1

I think you want do something like that:我想你想做这样的事情：

df
.groupBy('Fname)
.agg(
  first('LName),
  first('Department),
  first('Salary)
)

从 Scala Spark 中的 RDD[type] 获取不同的行

问题描述

1 个解决方案

解决方案1
1 2019-03-28 08:19:54

从 Scala Spark 中的 RDD[type] 获取不同的行

问题描述

1 个解决方案

解决方案1 1 2019-03-28 08:19:54

解决方案1
1 2019-03-28 08:19:54