簡體 English 中英

如何在Spark / Hive中將大部分數據合並到單個目錄中

[英]How to coalesce large portioned data into single directory in spark/Hive

原文 2018-01-23 16:20:45 6 1 hadoop/ apache-spark/ dataframe/ hive

我有一個要求，將大量數據分區並將其插入到Hive中。要綁定此數據，我正在使用DF.Coalesce(10) 。 現在我要將這部分數據綁定到單個目錄，如果使用DF.Coalesce(1) ，性能會降低嗎？ 還是我有其他任何流程？

1 個解決方案

據我了解，您正在嘗試確保每個分區的文件更少。 因此，通過使用coalesce(10) ，每個分區最多可獲得10個文件。 我建議使用repartition($"COL") ，這里COL是用於分區數據的列。 這將確保您的“巨大”數據基於HIVE中使用的分區列進行拆分。 df.repartition($"COL")

如何使用Hive / Spark-SQL生成大型數據集？

[英]How to generate a large data set using hive / spark-sql?

在蜂巢中如何將數據插入單個文件

[英]In hive how to insert data into a single file

從現有的外部分區表創建新的配置單元表

[英]Create new hive table from existing external portioned table

Spark 性能將大型數據集從 Dataframe 保存到 hdfs 或 hive

[英]Spark performance a large data-set save from Dataframe to hdfs or hive

無法使用Spark訪問Hive倉庫目錄

[英]Unable to access to Hive warehouse directory with Spark

如何使用Spark數據幀將csv數據加載到配置單元中？

[英]How I can load csv data into hive using Spark dataframes?

如何使用spark在Hive中正確加載數據？

[英]How do I load data correctly in Hive using spark?

使用Spark API如何處理大型目錄樹？

[英]How are large directory trees processed in using the Spark API?

對於Hive MAPJOIN作業，有多少數據被認為“太大”？

[英]How much data is considered “too large” for a Hive MAPJOIN job?

在哪里可以找到有關蜂巢的大數據？

[英]Where to find large data for hive?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何使用Hive / Spark-SQL生成大型數據集？在蜂巢中如何將數據插入單個文件從現有的外部分區表創建新的配置單元表 Spark 性能將大型數據集從 Dataframe 保存到 hdfs 或 hive 無法使用Spark訪問Hive倉庫目錄如何使用Spark數據幀將csv數據加載到配置單元中？如何使用spark在Hive中正確加載數據？使用Spark API如何處理大型目錄樹？對於Hive MAPJOIN作業，有多少數據被認為“太大”？在哪里可以找到有關蜂巢的大數據？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM