[英]Spark best approach Look-up Dataframe to improve performance
DataFrames 目前沒有這樣的直接連接方法。 在執行連接之前,它將完全讀取兩個表。
https://issues.apache.org/jira/browse/SPARK-16614
您可以使用 RDD API 來利用joinWithCassandraTable
函數
正如其他人所建議的那樣,其中一種方法是廣播較小的數據幀。 這也可以通過配置以下參數自動完成。
spark.sql.autoBroadcastJoinThreshold
如果數據幀大小小於此處指定的值,Spark 會自動廣播較小的數據幀而不是執行連接。 您可以在此處閱讀更多相關信息。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.