簡體 English 中英

Spark上的Spark SQL vs HIVE

[英]Spark SQL vs HIVE on Spark

原文 2016-08-08 03:22:03 6 1 apache-spark/ hive/ apache-spark-sql/ spark-dataframe

Spark上的Spark-SQL和Hive之間的區別。 我正在瀏覽spark和sql的文檔，並試圖了解Spark上的Spark-SQL和HIVE之間的區別。

考慮一個例子，當我啟動一個沒有任何明顯的hive支持的spark會話時，例如復制hive-site.xml ，然后在我的spark程序中hive-site.xml一個表，數據和元數據將存儲在哪里。 將火花創造一個新的Hive Metastore（如德比）？
考慮一個案例，當我啟動一個帶有 hive支持的spark會話時，比如復制hive-ste.xml並讓spark知道現有的hive。 然后，如果我堅持表格，數據和元數據將存儲在HDFS的現有Hive Metastore和Data in Warehouse目錄中。
如果我通過將執行引擎屬性更改為Spark來運行HIVE，那么它與上面提到的案例2相同嗎？

謝謝。

當您啟動spark會話時，數據可以存儲在S3或HDFS中。如果沒有明確創建，則不會固有地創建Hive會話。
如果您使用引用Hive表的'saveastable'子句，則為Yes。 數據將保留在HDFS中。 請記住，如果刪除EMFS中的HDFS實例，表格將隨其數據一起被刪除。

對問題＃3不確定