高級連接兩個數據框Spark Scala

Question

我必須加入兩個數據框。

示例：Dataframe1看起來像這樣

df1_col1      df1_col2
   a            ex1
   b            ex4
   c            ex2
   d            ex6
   e            ex3

Dataframe2

df2_col1      df2_col2
   1           a,b,c
   2           d,c,e
   3           a,e,c

結果數據框我想得到這樣的結果

res_col1      res_col2       res_col3
    a           ex1             1
    a           ex1             3
    b           ex4             1
    c           ex2             1
    c           ex2             2
    c           ex2             3
    d           ex6             2
    e           ex3             2
    e           ex3             3

實現這種加入的最佳方法是什么？

Answer 1

我已經更新了下面的代碼

val df1 = sc.parallelize(Seq(("a","ex1"),("b","ex4"),("c","ex2"),("d","ex6"),("e","ex3")))
val df2 = sc.parallelize(Seq(List(("1","a,b,c"),("2","d,c,e")))).toDF
df2.withColumn("df2_col2_explode", explode(split($"_2", ","))).select($"_1".as("df2_col1"),$"df2_col2_explode").join(df1.select($"_1".as("df1_col1"),$"_2".as("df1_col2")), $"df1_col1"===$"df2_col2_explode","inner").show

您只需要拆分這些值並通過展開它來生成多行，然后與另一個數據框合並。

您可以參考此鏈接，如何將以管道分隔的列拆分為多行？

Answer 2

我為連接使用了spark sql，這是代碼的一部分；

df1.createOrReplaceTempView("temp_v_df1")
df2.createOrReplaceTempView("temp_v_df2")
val df_result = spark.sql("""select 
                    |   b.df1_col1 as res_col1, 
                    |   b.df1_col2 as res_col2, 
                    |   a.df2_col1 as res_col3  
                    |   from (select df2_col1, exp_col 
                    |         from temp_v_df2 
                    |        lateral view explode(split(df2_col2,",")) dummy as exp_col) a
                    |   join temp_v_df1 b on a.exp_col = b.df1_col1""".stripMargin)

Answer 3

我使用spark scala數據框來實現所需的輸出。

val df1 = sc.parallelize(Seq(("a","ex1"),("b","ex4"),("c","ex2"),("d","ex6"),("e","ex3"))).toDF("df1_col1","df1_col2") 

val df2 = sc.parallelize(Seq((1,("a,b,c")),(2,("d,c,e")),(3,("a,e,c")))).toDF("df2_col1","df2_col2") 

df2.withColumn("_tmp", explode(split($"df2_col2", "\\,"))).as("temp").join (df1,$"temp._tmp"===df1("df1_col1"),"inner").drop("_tmp","df2_col2").show

需求輸出

+--------+--------+--------+
|df2_col1|df1_col1|df1_col2|
+--------+--------+--------+
|       2|       e|     ex3|
|       3|       e|     ex3|
|       2|       d|     ex6|
|       1|       c|     ex2|
|       2|       c|     ex2|
|       3|       c|     ex2|
|       1|       b|     ex4|
|       1|       a|     ex1|
|       3|       a|     ex1|
+--------+--------+--------+

根據您的要求重命名列。

這里是運行代碼的屏幕截圖

快樂Hadoooooooooooooooppppppppppppppppppppp

高級連接兩個數據框Spark Scala

問題描述

3 個解決方案

解決方案1
1 2018-12-16 16:31:28

解決方案2
1 2018-12-18 22:54:39

解決方案3
0 2019-03-07 12:49:54

高級連接兩個數據框Spark Scala

問題描述

3 個解決方案

解決方案1 1 2018-12-16 16:31:28

解決方案2 1 2018-12-18 22:54:39

解決方案3 0 2019-03-07 12:49:54

解決方案1
1 2018-12-16 16:31:28

解決方案2
1 2018-12-18 22:54:39

解決方案3
0 2019-03-07 12:49:54