簡體   English   中英

Spark上的Spark SQL vs HIVE

[英]Spark SQL vs HIVE on Spark

Spark上的Spark-SQL和Hive之間的區別。 我正在瀏覽spark和sql的文檔,並試圖了解Spark上的Spark-SQL和HIVE之間的區別。

  1. 考慮一個例子,當我啟動一個沒有任何明顯的hive支持的spark會話時例如復制hive-site.xml ,然后在我的spark程序中hive-site.xml一個表,數據和元數據將存儲在哪里。 將火花創造一個新的Hive Metastore(如德比)?
  2. 考慮一個案例,當我啟動一個帶有 hive支持的spark會話時比如復制hive-ste.xml並讓spark知道現有的hive。 然后,如果我堅持表格,數據和元數據將存儲在HDFS的現有Hive Metastore和Data in Warehouse目錄中。
  3. 如果我通過將執行引擎屬性更改為Spark來運行HIVE,那么它與上面提到的案例2相同嗎?

謝謝。

  1. 當您啟動spark會話時,數據可以存儲在S3或HDFS中。如果沒有明確創建,則不會固有地創建Hive會話。

  2. 如果您使用引用Hive表的'saveastable'子句,則為Yes。 數據將保留在HDFS中。 請記住,如果刪除EMFS中的HDFS實例,表格將隨其數據一起被刪除。

對問題#3不確定

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM