![](/img/trans.png)
[英]Apache Spark: broadcast join behaviour: filtering of joined tables and temp tables
[英]Spark Broadcast join where 1.5 M records dataset needs to join with 150 records temp table
我面臨的一個問題是試圖將150萬條記錄數據集連接到另一個具有150條記錄的DF。 性能非常差,並且顯示不正確的結果。 您能否建議使用Scala在LargeDF離開與小DF一起加入的地方加入廣播加入?
謝謝!
您可以顯式使用廣播功能,盡管如注釋中所述,對於小型DF,spark應該會自動加入。
import org.apache.spark.sql.functions.broadcast
dfBig.join(broadcast(dfSmall))
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.