激發如何在聯接中使用UDF

Question

我想通過Spark使用特定的UDF

這是計划：

我有一個table A （一千萬行）和一個table B （一千五百萬行）

我想使用UDF比較table A一個元素和table B一個元素

這是我的代碼的示例。 在某些時候，我還需要說我的UDF比較必須大於0,9 ：

DataFrame dfr = df
                .select("name", "firstname", "adress1", "city1","compare(adress1,adress2)")
                .join(dfa,df.col("adress1").equalTo(dfa.col("adress2"))
                        .and((df.col("city1").equalTo(dfa.col("city2"))
                                ...;

可能嗎？

Answer 1

是的你可以。 但是，由於Spark無法進行謂詞下推，因此它將比普通運算符要慢

例：

val udf = udf((x : String, y : String) => { here compute similarity; });
val df3 = df1.join(df2, udf(df1.field1, df2.field1) > 0.9)

例如：

val df1 = Seq (1, 2, 3, 4).toDF("x")
val df2 = Seq(1, 3, 7, 11).toDF("q")
val udf = org.apache.spark.sql.functions.udf((x : Int, q : Int) => { Math.abs(x - q); });
val df3 = df1.join(df2, udf(df1("x"), df2("q")) > 1)

您也可以直接從用戶定義函數返回布爾值

激發如何在聯接中使用UDF

問題描述

1 個解決方案

解決方案1
5 2017-08-16 16:44:34

激發如何在聯接中使用UDF

問題描述

1 個解決方案

解決方案1 5 2017-08-16 16:44:34

解決方案1
5 2017-08-16 16:44:34