繁体 English 中英

Spark 性能将大型数据集从 Dataframe 保存到 hdfs 或 hive

[英]Spark performance a large data-set save from Dataframe to hdfs or hive

原文 2019-04-14 11:25:04 0 1 apache-spark/ hadoop/ hive/ bigdata

我在 Spark Dataframe 中有一个大型数据集。 我想将这些数据保存到 hive 中。 以下哪个选项会给我最好的性能？

哪一个将提供最佳性能，为什么？

最好直接将 SPARK Dataframe 中的数据写入 Hive 表。

Hive 表中存储的所有数据都作为文件存储在 HDFS 中。

将数据保存在 HDFS 中并在其上创建 Hive 外部表似乎是一项双重工作。

Spark 具有将数据帧中存在的数据直接保存到 Hive 表的功能，前提是您必须使用数据帧中的架构创建 Hive 表，这要容易得多。

Spark 将数据从数据帧写入 hdfs 或 Hive 表的性能取决于您拥有的集群设置。

Spark-如何将约20TB的数据从DataFrame写入Hive表或hdfs？

[英]Spark - how to write ~20TB of data from a DataFrame to a hive table or hdfs?

[英]Using spark dataFrame to load data from HDFS

[英]Spark reduce and aggregate on same data-set

[英]Spark sql save dataframe to hive

[英]Spark 2 Dataframe Save to Hive - Compaction

[英]how to save data in HDFS with spark?

[英]How to generate a large data set using hive / spark-sql?

[英]Save JavaRDD to HDFS from Spark

[英]Save Spark dataframe to HDFS partitioned by date

[英]Save HDFS To MongoDB using Spark-DataFrame

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Spark-如何将约20TB的数据从DataFrame写入Hive表或hdfs？使用spark dataFrame从HDFS加载数据 Spark在同一数据集上减少并聚合 Spark SQL将数据框保存到配置单元 Spark 2 Dataframe保存到Hive-压缩如何用spark保存HDFS中的数据？如何使用Hive / Spark-SQL生成大型数据集？从Spark将JavaRDD保存到HDFS 将Spark数据帧保存到按日期分区的HDFS 使用 Spark-DataFrame 将 HDFS 保存到 MongoDB

相关标签