簡體   English   中英

Spark 性能將大型數據集從 Dataframe 保存到 hdfs 或 hive

[英]Spark performance a large data-set save from Dataframe to hdfs or hive

我在 Spark Dataframe 中有一個大型數據集。 我想將這些數據保存到 hive 中。 以下哪個選項會給我最好的性能?

  • 將此數據從 SPARK Dataframe 保存到 hdfs 並在其上創建 Hive 外部表?
  • 直接將SPARK Dataframe中的數據寫入Hive表?

哪一個將提供最佳性能,為什么?

最好直接將 SPARK Dataframe 中的數據寫入 Hive 表。

Hive 表中存儲的所有數據都作為文件存儲在 HDFS 中。

將數據保存在 HDFS 中並在其上創建 Hive 外部表似乎是一項雙重工作。

Spark 具有將數據幀中存在的數據直接保存到 Hive 表的功能,前提是您必須使用數據幀中的架構創建 Hive 表,這要容易得多。

Spark 將數據從數據幀寫入 hdfs 或 Hive 表的性能取決於您擁有的集群設置。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM