繁体 English 中英

Hive比Spark更快吗？

[英]Is Hive faster than Spark?

原文 2016-09-09 16:30:58 1 3 hadoop/ apache-spark/ hive/ apache-tez/ bigdata

阅读什么是蜂巢后，它是一个数据库吗？ 一位同事昨天提到他能够过滤掉一张15B的桌子，在做了一个“分组”之后加入另一张桌子，结果只有10分钟就产生了6B记录！ 我想知道这在Spark中是否会变慢，因为现在使用DataFrames，它们可能具有可比性，但我不确定，因此这个问题。

Hive比Spark更快吗？ 或者这个问题没有意义？ 对不起，因为我的无知。

他使用最新的Hive，似乎正在使用Tez。

3 个解决方案

Hive只是一个为MapReduce类型工作负载提供sql功能的框架。

这些工作负载可以在mapreduce或yarn上运行。

因此，比较Hive on tez vs Hive on spark。 下面讨论这个好文章什么时候使用Tez VS在Hive上使用ETL何时使用Spark ETL？ （如果不确定，请使用Hive on spark）。

越低越好

Spark非常方便，但在SQL性能方面并不能很好地处理扩展。

Hive对共同分区的连接有着惊人的支持。 当您加入的表格有数亿到数十亿行时，您将非常感谢精细的连接支持：

类似的distribute by和sort by （或cluster by ）
bucketed joins

Hive对metadata-only queries提供了广泛的支持：自2.1以来，Spark只有一丝亮点

当分区数超过10K +时，Spark会快速耗尽。 Hive不受此限制。

快进到2018年，Hive比SparkSQL快得多（也更稳定），特别是在并发环境中，根据以下文章：

https://mr3.postech.ac.kr/blog/2018/10/31/performance-evaluation-0.4/

本文使用TPC-DS基准测试（1TB，3TB，10TB）使用三个集群（11个节点，21个节点，42个节点）比较了几个SQL-on-Hadoop系统：

Hive-LLAP包含在HDP（Hortonworks数据平台）2.6.4中
Hive-LLAP包含在HDP 3.0.1中
Presto 0.203e（启用基于成本的优化）
Presto 0.208e（启用基于成本的优化）
SparkSQL 2.2.0包含在HDP 2.6.4中
SparkSQL 2.3.1包含在HDP 3.0.1中
Hive 3.1.0运行在Tez之上
Hz on Tez包含在HDP 3.0.1中
Hive 3.1.0运行在MR3 0.4之上
Hive 2.3.3运行在MR3 0.4之上

因此，与基于Hive的系统和Presto相比，SparkSQL非常慢，并且不能在并发环境中扩展。 （注意，该实验使用在vanilla Spark上运行的SparkSQL。）

Orc在Hive中不比csv快？

[英]Orc not faster than csv in Hive?

Spark vs MapReduce，为什么Spark比MR快，原理？

[英]Spark vs MapReduce , why is Spark faster than MR ,the principle?

映射比 hive 数据类型中的 JSON 字符串快多少？

[英]How faster the map than JSON string in the hive data type?

Spark 无法看到除默认之外的 Hive 数据库

[英]Spark cannot see Hive databases other than default

在Tez上真的是Hive，ORC性能比用于ETL的Spark SQL更好吗？

[英]Is really Hive on Tez with ORC performance better than Spark SQL for ETL?

为什么 spark 比 Hadoop Map Reduce 快 100 倍

[英]Why spark is 100 times faster than Hadoop Map Reduce

Hive中哪一个更快？ “在”还是“或”？

[英]Which one is faster in Hive? “in” or “or”?

为什么 Hive 中的 Fetch 任务比 Map-only 任务运行得更快？

[英]Why is Fetch task in Hive works faster than Map-only task?

将 Hive 转换为 Spark

[英]Converting Hive to spark

Apache Spark 上的 Apache Hive

[英]Apache Hive on Apache Spark

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Orc在Hive中不比csv快？ Spark vs MapReduce，为什么Spark比MR快，原理？映射比 hive 数据类型中的 JSON 字符串快多少？ Spark 无法看到除默认之外的 Hive 数据库在Tez上真的是Hive，ORC性能比用于ETL的Spark SQL更好吗？为什么 spark 比 Hadoop Map Reduce 快 100 倍 Hive中哪一个更快？ “在”还是“或”？为什么 Hive 中的 Fetch 任务比 Map-only 任务运行得更快？将 Hive 转换为 Spark Apache Spark 上的 Apache Hive

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM