簡體 English 中英

Spark 性能將大型數據集從 Dataframe 保存到 hdfs 或 hive

[英]Spark performance a large data-set save from Dataframe to hdfs or hive

原文 2019-04-14 11:25:04 9 1 apache-spark/ hadoop/ hive/ bigdata

我在 Spark Dataframe 中有一個大型數據集。 我想將這些數據保存到 hive 中。 以下哪個選項會給我最好的性能？

哪一個將提供最佳性能，為什么？

最好直接將 SPARK Dataframe 中的數據寫入 Hive 表。

Hive 表中存儲的所有數據都作為文件存儲在 HDFS 中。

將數據保存在 HDFS 中並在其上創建 Hive 外部表似乎是一項雙重工作。

Spark 具有將數據幀中存在的數據直接保存到 Hive 表的功能，前提是您必須使用數據幀中的架構創建 Hive 表，這要容易得多。

Spark 將數據從數據幀寫入 hdfs 或 Hive 表的性能取決於您擁有的集群設置。

Spark-如何將約20TB的數據從DataFrame寫入Hive表或hdfs？

[英]Spark - how to write ~20TB of data from a DataFrame to a hive table or hdfs?

[英]Using spark dataFrame to load data from HDFS

[英]Spark reduce and aggregate on same data-set

[英]Spark sql save dataframe to hive

[英]Spark 2 Dataframe Save to Hive - Compaction

[英]how to save data in HDFS with spark?

[英]How to generate a large data set using hive / spark-sql?

[英]Save JavaRDD to HDFS from Spark

[英]Save Spark dataframe to HDFS partitioned by date

[英]Save HDFS To MongoDB using Spark-DataFrame

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Spark-如何將約20TB的數據從DataFrame寫入Hive表或hdfs？使用spark dataFrame從HDFS加載數據 Spark在同一數據集上減少並聚合 Spark SQL將數據框保存到配置單元 Spark 2 Dataframe保存到Hive-壓縮如何用spark保存HDFS中的數據？如何使用Hive / Spark-SQL生成大型數據集？從Spark將JavaRDD保存到HDFS 將Spark數據幀保存到按日期分區的HDFS 使用 Spark-DataFrame 將 HDFS 保存到 MongoDB

相關標簽