繁体   English   中英

动态连接多个列上的两个spark-scala数据帧,而无需对连接条件进行硬编码

[英]dynamically join two spark-scala dataframes on multiple columns without hardcoding join conditions

我想动态地在多个列上加入两个spark-scala数据帧。 我将避免硬编码列名比较,如以下语句所示;

val joinRes = df1.join(df2, df1("col1") == df2("col1") and df1("col2") == df2("col2"))

pyspark版本中已经存在此查询的解决方案-在以下链接中提供了PySpark DataFrame-动态连接多个列

我想使用spark-scala编码相同的代码

在scala中,您可以像在python中一样执行此操作,但是您需要使用map和reduce函数:

val sparkSession = SparkSession.builder().getOrCreate()
import sparkSession.implicits._

val df1 = List("a,b", "b,c", "c,d").toDF("col1","col2")
val df2 = List("1,2", "2,c", "3,4").toDF("col1","col2")

val columnsdf1 = df1.columns
val columnsdf2 = df2.columns

val joinExprs = columnsdf1
   .zip(columnsdf2)
   .map{case (c1, c2) => df1(c1) === df2(c2)}
   .reduce(_ && _)

val dfJoinRes = df1.join(df2,joinExprs)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM