[英]How to Join on All Columns Scala Spark
如果我在 Scala Spark 中有兩個表,我如何在不明確寫出的情況下加入每一列。 這將是我必須寫出每一列的方法。 我想使用 Seq 方法,因為它刪除了重復的列。
table("a")
.join(table("b", Seq("col_a","col_b"....)
您可以使用DataFrame.columns
獲取所有列,如果它們對於兩個表/數據框都相同,那么您可以按如下方式加入它們。 如果列名不同,那么您需要自定義邏輯來構建連接條件。
case class atable(column1:String, column2:String)
val table1 = spark.createDataFrame(Seq(atable(column1 = "a",column2 = "1"),atable(column1 = "b",column2 = "2")))
val table2 = spark.createDataFrame(Seq(atable(column1 = "a",column2 = "1"),atable(column1 = "c",column2 = "3")))
table1.join(table2, table1.columns).show()
結果 -
+-------+-------+
|column1|column2|
+-------+-------+
| a| 1|
+-------+-------+
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.