簡體   English   中英

Spark Broadcast連接,其中150萬條記錄數據集需要與150條記錄臨時表連接

[英]Spark Broadcast join where 1.5 M records dataset needs to join with 150 records temp table

我面臨的一個問題是試圖將150萬條記錄數據集連接到另一個具有150條記錄的DF。 性能非常差,並且顯示不正確的結果。 您能否建議使用Scala在LargeDF離開與小DF一起加入的地方加入廣播加入?

謝謝!

您可以顯式使用廣播功能,盡管如注釋中所述,對於小型DF,spark應該會自動加入。

import org.apache.spark.sql.functions.broadcast

dfBig.join(broadcast(dfSmall))

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM