繁体   English   中英

Spark 性能将大型数据集从 Dataframe 保存到 hdfs 或 hive

[英]Spark performance a large data-set save from Dataframe to hdfs or hive

我在 Spark Dataframe 中有一个大型数据集。 我想将这些数据保存到 hive 中。 以下哪个选项会给我最好的性能?

  • 将此数据从 SPARK Dataframe 保存到 hdfs 并在其上创建 Hive 外部表?
  • 直接将SPARK Dataframe中的数据写入Hive表?

哪一个将提供最佳性能,为什么?

最好直接将 SPARK Dataframe 中的数据写入 Hive 表。

Hive 表中存储的所有数据都作为文件存储在 HDFS 中。

将数据保存在 HDFS 中并在其上创建 Hive 外部表似乎是一项双重工作。

Spark 具有将数据帧中存在的数据直接保存到 Hive 表的功能,前提是您必须使用数据帧中的架构创建 Hive 表,这要容易得多。

Spark 将数据从数据帧写入 hdfs 或 Hive 表的性能取决于您拥有的集群设置。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM