Spark Scala Dataframe连接和修改

Question

我有一个表，其中包含员工详细信息，另一个表项目中具有分配的项目详细信息和员工ID。

雇员

EmployeeName|Id|Address|Assigned
Joan|101|xxxx|y

ProjectCode|Number of days|Employee
XX1223|24|101

我有一个csv文件，它将在employee表中加载雇员详细信息。 在加载员工详细信息时，

我需要确定他的员工ID是否分配给项目表：
- 如果项目表中有雇员ID，则在雇员表中将y插入到Assigned中。
- 如果不是，则在Employee表中将n插入Assigned。

我有一个用于Employee的数据框，var employeeDF = Employee_TABLE并且var employeeAssignedDF = Employee_Join_Project

此刻，我先插入Employee，然后进行联接，然后再次更新Employee。 但是我可以做employeeDF.except（employeeAssignedDF），它将具有最少的行数。

谢谢

Answer 1

您可以尝试这样做，但是不确定是否可以解决您的问题-

val newDf = df.withColumn("Column", when(CONDITION, 'Y').otherwise('N'))

您还可以在“ when（CONDITION，'Y'）”位置使用任何方法