簡體 English 中英

數據幀完全外連接中的OR條件降低性能spark / scala

[英]OR condition in dataframe full outer join reducing performance spark/scala

原文 2018-08-22 02:16:25 7 1 scala/ apache-spark/ join/ apache-spark-sql

我看到如果我的連接條件涉及OR子句，則需要很長時間才能使用AND子句。 我正在做fullouter加入。

我的單元測試沒有顯示出重大差異，但是當針對大型數據集運行時，它運行速度非常慢

df1.join(df2, expr("id1 = id2 AND amount1 = amount2"), "fullouter").cache()

以下運行時間較長，即幅度慢〜10倍

df1.join(df2, expr("id1 = id2 OR amount1 = amount2"), "fullouter").cache()

有什么想法嗎？

1 個解決方案

TL; DR預計這兩者之間的性能差異。

邏輯連接（ AND ）可以表示為基於shuffle的操作（排序合並連接或隨機散列連接） - 這意味着必須根據連接中包含的所有表達式的哈希將每個記錄轉移到僅一個子分區條件。
雖然在最壞的情況下（所有連接鍵都是常量並且在兩個數據集之間匹配），但是可以將N * M與所有拖曳到單個分區的記錄進行比較，典型情況下，使用實際數據，應該更加高效，大致N + M比較。
邏輯析取（ OR ）不能表示為簡單的基於隨機數的操作，因為可以匹配對不同桶的記錄散列*。 因此，Spark使用笛卡爾積，然后選擇總是多次傳輸每個記錄並進行N * M比較。

Scala中的完全外部聯接

[英]Full outer join in Scala

如何在Spark Scala中合並多個DataFrame進行高效的完全外部聯接

[英]How to Merge Join Multiple DataFrames in Spark Scala Efficient Full Outer Join

Spark（Scala）中的靈活連接條件

[英]flexible join condition in Spark (Scala)

避免加入 Spark Scala DataFrame

[英]Avoid Join in Spark Scala DataFrame

Scala Spark Join Dataframe in loop

[英]Scala Spark Join Dataframe in loop

Spark Scala Dataframe連接和修改

[英]Spark Scala Dataframe join and modification

用scala spark連接兩個數據框

[英]Join two dataframe with scala spark

在使用scala減少列表時，產生reducingByKey性能/復雜性

[英]spark reduceByKey performance/complexity when reducing lists with scala

Spark scala 在 dataframe 內加入 dataframe

[英]Spark scala join dataframe within a dataframe

Spark中的廣播哈希加入（BHJ）用於完全外連接（外部，完整，全部）

[英]Broadcast Hash Join (BHJ) in Spark for full outer join (outer, full, fullouter)

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Scala中的完全外部聯接如何在Spark Scala中合並多個DataFrame進行高效的完全外部聯接 Spark（Scala）中的靈活連接條件避免加入 Spark Scala DataFrame Scala Spark Join Dataframe in loop Spark Scala Dataframe連接和修改用scala spark連接兩個數據框在使用scala減少列表時，產生reducingByKey性能/復雜性 Spark scala 在 dataframe 內加入 dataframe Spark中的廣播哈希加入（BHJ）用於完全外連接（外部，完整，全部）

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM