從 Scala Spark 中的 RDD[type] 獲取不同的行

Question

假設我有一個像這種 RDD[employee] 格式的 RDD，樣本數據如下：-

FName,LName,Department,Salary
dubert,tomasz ,paramedic i/c,91080.00,
edwards,tim p,lieutenant,114846.00,
edwards,tim p,lieutenant,234846.00,
edwards,tim p,lieutenant,354846.00,
elkins,eric j,police,104628.00,
estrada,luis f,police officer,96060.00,
ewing,marie a,clerk,53076.00,
ewing,marie a,clerk,13076.00,
ewing,marie a,clerk,63076.00,
finn,sean p,firefighter,87006.00,
fitch,jordan m,law clerk,14.51
fitch,jordan m,law clerk,14.51

預期輸出：-

dubert,tomasz ,paramedic i/c,91080.00,
edwards,tim p,lieutenant,354846.00,
elkins,eric j,police,104628.00,
estrada,luis f,police officer,96060.00,
ewing,marie a,clerk,63076.00,
finn,sean p,firefighter,87006.00,
fitch,jordan m,law clerk,14.51

我想要基於不同 Fname 的每一行

Answer 1

我想你想做這樣的事情：

df
.groupBy('Fname)
.agg(
  first('LName),
  first('Department),
  first('Salary)
)

從 Scala Spark 中的 RDD[type] 獲取不同的行

問題描述

1 個解決方案

解決方案1
1 2019-03-28 08:19:54

從 Scala Spark 中的 RDD[type] 獲取不同的行

問題描述

1 個解決方案

解決方案1 1 2019-03-28 08:19:54

解決方案1
1 2019-03-28 08:19:54