簡體   English   中英

如何在Spark / Hive中將大部分數據合並到單個目錄中

[英]How to coalesce large portioned data into single directory in spark/Hive

我有一個要求,將大量數據分區並將其插入到Hive中。要綁定此數據,我正在使用DF.Coalesce(10) 現在我要將這部分數據綁定到單個目錄,如果使用DF.Coalesce(1) ,性能會降低嗎? 還是我有其他任何流程?

據我了解,您正在嘗試確保每個分區的文件更少。 因此,通過使用coalesce(10) ,每個分區最多可獲得10個文件。 我建議使用repartition($"COL") ,這里COL是用於分區數據的列。 這將確保您的“巨大”數據基於HIVE中使用的分區列進行拆分。 df.repartition($"COL")

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM