簡體   English   中英

Spark SQL和Hive之間的區別

[英]Difference Between Spark SQL and Hive

您能否幫助我了解Spark SQl和Hive之間的區別?

Apache Hive數據倉庫軟件有助於讀取,寫入和管理駐留在分布式存儲中並使用SQL語法查詢的大型數據集。

Hive建立在Apache Hadoop之上,提供以下功能:

  • 通過SQL輕松訪問數據的工具,從而實現數據倉庫任務,例如提取/轉換/加載(ETL),報告和數據分析。
  • 訪問直接存儲在Apache HDFS或其他數據存儲系統(例如Apache HBase)中的文件
  • 通過Hive LLAP,Apache YARN和Apache Slider進行亞秒級查詢檢索。
  • 一種將結構強加於各種數據格式的機制

而Apache Spark是一個快速的通用集群計算系統。 它提供Java,Scala,Python和R中的高級API,以及支持常規執行圖的優化引擎。 它還支持豐富的高級工具集,包括用於SQL和結構化數據處理的Spark SQL。

Spark SQL是用於結構化數據處理的Spark模塊,其中內存處理是其核心。 使用Spark SQL,可以從任何結構化源(例如JSON,CSV,鑲木地板,avro,sequencefiles,jdbc和hive等)讀取數據。

Spark SQL還可以用於從現有的Hive安裝中讀取數據。 因此,Spark SQL是可用於處理任何結構化數據源的通用模塊。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM