使用 Spark Scala 連接兩個數據框

Question

我有這個代碼：

   val o =    p_value.alias("d1").join(t_d.alias("d2"),
      (col("d1.origin_latitude")===col("d2.origin_latitude")&& 
      col("d1.origin_longitude")===col("d2.origin_longitude")),"left").
      filter(col("d2.origin_longitude").isNull)
   val c =    p_value2.alias("d3").join(o.alias("d4"),
      (col("d3.origin_latitude")===col("d4.origin_latitude") && 
       col("d3.origin_longitude")===col("d4.origin_longitude")),"left").
      filter(col("d3.origin_longitude").isNull)

我收到此錯誤：

Exception in thread "main" org.apache.spark.sql.AnalysisException: Reference 'd4.origin_latitude' is ambiguous, could be: d4.origin_latitude, d4.origin_latitude.;
at org.apache.spark.sql.catalyst.expressions.package$AttributeSeq.resolve(package.scala:240)
at org.apache.spark.sql.catalyst.plans.logical.LogicalPlan.resolveChildren(LogicalPlan.scala:101)

在這條線上

 (col("d3.origin_latitude")===col("d4.origin_latitude") && col("d3.origin_longitude")===col("d4.origin_longitude")),"left").

任何的想法？

謝謝你。

Answer 1

您是別名DataFrame而不是列，它用於訪問/引用該DataFrame列。 因此，第一次連接將導致另一個DataFrame具有兩次相同的列名（ origin_latitude以及origin_longitude ）。 一旦您嘗試訪問結果DataFrame的這些列之一，您將收到Ambiguity錯誤。

所以你需要確保DataFrame只包含每列一次。 您可以按如下方式重寫第一個連接：

p_value
      .join(t_d, Seq("origin_latitude", "origin_longitude"), "left")
      .filter(t_d.col("t_d.origin_longitude").isNull)

使用 Spark Scala 連接兩個數據框

問題描述

1 個解決方案

解決方案1
1 已采納 2020-03-29 14:54:07

使用 Spark Scala 連接兩個數據框

問題描述

1 個解決方案

解決方案1 1 已采納 2020-03-29 14:54:07

解決方案1
1 已采納 2020-03-29 14:54:07