簡體   English   中英

如何加入所有列 Scala Spark

[英]How to Join on All Columns Scala Spark

如果我在 Scala Spark 中有兩個表,我如何在不明確寫出的情況下加入每一列。 這將是我必須寫出每一列的方法。 我想使用 Seq 方法,因為它刪除了重復的列。

table("a")
.join(table("b", Seq("col_a","col_b"....)

您可以使用DataFrame.columns獲取所有列,如果它們對於兩個表/數據框都相同,那么您可以按如下方式加入它們。 如果列名不同,那么您需要自定義邏輯來構建連接條件。

    case class atable(column1:String, column2:String)

    val table1 = spark.createDataFrame(Seq(atable(column1 = "a",column2 = "1"),atable(column1 = "b",column2 = "2")))
    val table2 = spark.createDataFrame(Seq(atable(column1 = "a",column2 = "1"),atable(column1 = "c",column2 = "3")))

    table1.join(table2, table1.columns).show()

結果 -

+-------+-------+
|column1|column2|
+-------+-------+
|      a|      1|
+-------+-------+

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM