繁体   English   中英

Hive替代大数据查询

[英]Hive alternative for big data query

从官方Hive文档

Hive旨在为交互式数据浏览,小型数据集查询或测试查询提供可接受(但不是最佳)的延迟。

我不是数据库体系结构的专家,我想知道如果上面的假设不正确,即在大数据集上进行查询时是否存在替代方案。

有几种方法可以使查询运行得更快。 我不会详细介绍这些,但您可以探索以下内容:

  1. Cloudera Impala :由cloudera开发http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/impala.html

  2. Presto DB :由Facebook开发http://prestodb.io/

  3. Spark SQL :构建在Spark之上( https://spark.apache.org/sql/

有很多很好的文章比较Hive vs Impala vs Presto并比较他们的表现。 您可以阅读它们并选择最适合您的用例的那个。 这是一个比较它们的优缺点的链接: http//bigdatanerd.wordpress.com/2013/11/19/war-on-sql-over-hadoop/

从你的问题我可以看出你想减少查询的延迟...但你可以使用hdfs作为数据存储....你有很多替代品,如presto和spark sql ...他们两个似乎无缝集成hive但具有相当大的性能优势.....另一种替代方案可以是将数据存储转移到无sql数据库....如果你想使用HDFS作为数据存储hbase可以提供一些性能优势....其他人可以是蒙戈,卡桑德拉等

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM