簡體 English 中英

Spark Broadcast連接，其中150萬條記錄數據集需要與150條記錄臨時表連接

[英]Spark Broadcast join where 1.5 M records dataset needs to join with 150 records temp table

原文 2017-03-22 05:35:17 9 1 apache-spark/ apache-spark-sql/ spark-dataframe

我面臨的一個問題是試圖將150萬條記錄數據集連接到另一個具有150條記錄的DF。 性能非常差，並且顯示不正確的結果。 您能否建議使用Scala在LargeDF離開與小DF一起加入的地方加入廣播加入？

謝謝！

1 個解決方案

您可以顯式使用廣播功能，盡管如注釋中所述，對於小型DF，spark應該會自動加入。

import org.apache.spark.sql.functions.broadcast

dfBig.join(broadcast(dfSmall))

Apache Spark：廣播聯接行為：聯接表和臨時表的過濾

[英]Apache Spark: broadcast join behaviour: filtering of joined tables and temp tables

加入spark后有效統計記錄

[英]Effectively counting records after join in spark

星火廣播vs加入

[英]Spark broadcast vs join

Spark 數據集 API - 加入

[英]Spark Dataset API - join

在Spark中加入傾斜的數據集？

[英]Skewed dataset join in Spark?

Spark Dataset聯接性能

[英]Spark Dataset join performance

在連接中廣播左表

[英]Broadcast left table in a join

Spark SQL廣播哈希聯接

[英]Spark SQL broadcast hash join

Spark SQL 中的迭代廣播連接

[英]Iterative Broadcast Join in Spark SQL

在火花中，我們可以在相同的表大小上執行廣播連接嗎？

[英]In spark, Can we perform broadcast join on same table size?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Apache Spark：廣播聯接行為：聯接表和臨時表的過濾加入spark后有效統計記錄星火廣播vs加入 Spark 數據集 API - 加入在Spark中加入傾斜的數據集？ Spark Dataset聯接性能在連接中廣播左表 Spark SQL廣播哈希聯接 Spark SQL 中的迭代廣播連接在火花中，我們可以在相同的表大小上執行廣播連接嗎？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM