[英]How to coalesce large portioned data into single directory in spark/Hive
我有一個要求,將大量數據分區並將其插入到Hive中。要綁定此數據,我正在使用DF.Coalesce(10)
。 現在我要將這部分數據綁定到單個目錄,如果使用DF.Coalesce(1)
,性能會降低嗎? 還是我有其他任何流程?
據我了解,您正在嘗試確保每個分區的文件更少。 因此,通過使用coalesce(10)
,每個分區最多可獲得10個文件。 我建議使用repartition($"COL")
,這里COL是用於分區數據的列。 這將確保您的“巨大”數據基於HIVE中使用的分區列進行拆分。 df.repartition($"COL")
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.