[英]Spark - how to write ~20TB of data from a DataFrame to a hive table or hdfs?
[英]Spark performance a large data-set save from Dataframe to hdfs or hive
我在 Spark Dataframe 中有一個大型數據集。 我想將這些數據保存到 hive 中。 以下哪個選項會給我最好的性能?
哪一個將提供最佳性能,為什么?
最好直接將 SPARK Dataframe 中的數據寫入 Hive 表。
Hive 表中存儲的所有數據都作為文件存儲在 HDFS 中。
將數據保存在 HDFS 中並在其上創建 Hive 外部表似乎是一項雙重工作。
Spark 具有將數據幀中存在的數據直接保存到 Hive 表的功能,前提是您必須使用數據幀中的架構創建 Hive 表,這要容易得多。
Spark 將數據從數據幀寫入 hdfs 或 Hive 表的性能取決於您擁有的集群設置。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.