繁体   English   中英

Spark Scala Dataframe连接和修改

[英]Spark Scala Dataframe join and modification

我有一个表,其中包含员工详细信息,另一个表项目中具有分配的项目详细信息和员工ID。

雇员

EmployeeName|Id|Address|Assigned
Joan|101|xxxx|y

项目

ProjectCode|Number of days|Employee
XX1223|24|101

我有一个csv文件,它将在employee表中加载雇员详细信息。 在加载员工详细信息时,

  1. 我需要确定他的员工ID是否分配给项目表:
    • 如果项目表中有雇员ID,则在雇员表中将y插入到Assigned中。
    • 如果不是,则在Employee表中将n插入Assigned。

我有一个用于Employee的数据框,var employeeDF = Employee_TABLE并且var employeeAssignedDF = Employee_Join_Project

此刻,我先插入Employee,然后进行联接,然后再次更新Employee。 但是我可以做employeeDF.except(employeeAssignedDF),它将具有最少的行数。

  1. 是否可以仅更改几个数据框列?
  2. 我只想插入一次表,所以当我加入并执行操作时,我应该拥有可以插入数据库的所有记录。 那可行吗?

谢谢

您可以尝试这样做,但是不确定是否可以解决您的问题-

val newDf = df.withColumn("Column", when(CONDITION, 'Y').otherwise('N'))

您还可以在“ when(CONDITION,'Y')”位置使用任何方法

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM