从Spark中的单个数据框中删除Column的列表

Question

我有一个Dataframe是由两个Dataframe的连接产生的： df1和df2到df3 。 在df2中找到的所有列也在df1 ， 但是它们的内容不同 。 我想从df2.columns删除名称在df2.columns中的所有df1列。 有没有不用var就能做到这一点的方法吗？ 目前我已经做到了

var ret = df3
df2.columns.foreach(coln => ret = ret.drop(df2(coln)))

但是我真正想要的只是一个捷径

df3.drop(df1(df2.columns(1))).drop(df1(df2.columns(2)))....

不使用var。

传递列列表不是一种选择，不知道是否是因为我使用的是spark 2.2

编辑：

重要说明：我事先不知道df1和df2的列

Answer 1

在执行联接本身时，这是可以实现的。 请尝试以下代码

 val resultDf=df1.alias("frstdf").join(broadcast(df2).alias("scndf"),  $"frstdf.col1" === $"scndf.col1", "left_outer").selectExpr("scndf.col1","scndf.col2"...)//.selectExpr("scndf.*")

这将仅包含第二个数据帧中的列。 希望这可以帮助

Answer 2

快捷方式是：

val ret  = df2.columns.foldLeft(df3)((acc,coln) => acc.drop(df2(coln)))

我建议删除联接之前的列。 或者，仅从df3中选择来自df2的列：

val ret = df3.select(df2.columns.map(col):_*)

从Spark中的单个数据框中删除Column的列表

问题描述

2 个解决方案

解决方案1
2 2019-03-25 12:32:46

解决方案2
1 已采纳 2019-03-25 19:56:00

从Spark中的单个数据框中删除Column的列表

问题描述

2 个解决方案

解决方案1 2 2019-03-25 12:32:46

解决方案2 1 已采纳 2019-03-25 19:56:00

解决方案1
2 2019-03-25 12:32:46

解决方案2
1 已采纳 2019-03-25 19:56:00