![](/img/trans.png)
[英]Spark - how to write ~20TB of data from a DataFrame to a hive table or hdfs?
[英]Spark performance a large data-set save from Dataframe to hdfs or hive
我在 Spark Dataframe 中有一个大型数据集。 我想将这些数据保存到 hive 中。 以下哪个选项会给我最好的性能?
哪一个将提供最佳性能,为什么?
最好直接将 SPARK Dataframe 中的数据写入 Hive 表。
Hive 表中存储的所有数据都作为文件存储在 HDFS 中。
将数据保存在 HDFS 中并在其上创建 Hive 外部表似乎是一项双重工作。
Spark 具有将数据帧中存在的数据直接保存到 Hive 表的功能,前提是您必须使用数据帧中的架构创建 Hive 表,这要容易得多。
Spark 将数据从数据帧写入 hdfs 或 Hive 表的性能取决于您拥有的集群设置。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.