繁体 English 中英

Hive替代大数据查询

[英]Hive alternative for big data query

原文 2014-10-20 13:32:56 1 2 database/ apache/ hive/ bigdata

从官方Hive文档：

Hive旨在为交互式数据浏览，小型数据集查询或测试查询提供可接受（但不是最佳）的延迟。

我不是数据库体系结构的专家，我想知道如果上面的假设不正确，即在大数据集上进行查询时是否存在替代方案。

2 个解决方案

有几种方法可以使查询运行得更快。 我不会详细介绍这些，但您可以探索以下内容：

Cloudera Impala ：由cloudera开发http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/impala.html
Presto DB ：由Facebook开发http://prestodb.io/
Spark SQL ：构建在Spark之上（ https://spark.apache.org/sql/ ）

有很多很好的文章比较Hive vs Impala vs Presto并比较他们的表现。 您可以阅读它们并选择最适合您的用例的那个。 这是一个比较它们的优缺点的链接： http ： //bigdatanerd.wordpress.com/2013/11/19/war-on-sql-over-hadoop/

从你的问题我可以看出你想减少查询的延迟...但你可以使用hdfs作为数据存储....你有很多替代品，如presto和spark sql ...他们两个似乎无缝集成hive但具有相当大的性能优势.....另一种替代方案可以是将数据存储转移到无sql数据库....如果你想使用HDFS作为数据存储hbase可以提供一些性能优势....其他人可以是蒙戈，卡桑德拉等