Hive查询效率

Question

你能帮我解决一下Hive Query Efficiency问题吗？ 我有两个查询正在解决同一个问题。 我只是想不通为什么一个比另一个快得多。 如果您知道，请随时提供见解。 欢迎任何信息！

问题：我正在尝试检查Hive镶木桌中的一堆变量的最小值。

查询：我尝试了两个查询，如下所示：

query 1

drop table if exists tb_1 purge;
create table if not exists tb_1 as
select 'v1' as name, min(v1) as min_value from src_tb union all
select 'v2' as name, min(v2) as min_value from src_tb union all
select 'v3' as name, min(v3) as min_value from src_tb union all
...
select 'v200' as name, min(v200) as min_value from src_tb
;

query 2

drop table if exists tb_2 purge;
create table if not exists tb_2 as
select min(v1) as min_v1
, min(v2) as min_v2
, min(v3) as min_v3
...
, min(v200) as min_v200
from src_tb
;

结果：查询2比查询1快得多。大约需要5分钟才能完成第二个查询。 我不知道查询1会花多长时间。 但是在我提交第一个查询之后，甚至花了很长时间才对查询作出反应，我的意思是通常在我提交查询后，系统将开始分析并在终端中提供一些编译信息。 但是，对于我的第一个查询，在我提交之后，系统甚至不会对此作出反应。 所以我就把它杀死了。

你怎么看？ 先感谢您。

Answer 1

查询执行时间取决于您执行它的环境。

在MSSQL中 。

有些人喜欢你认为查询执行类似于他们在一些理论资源中看到的算法，但在实际情况中，它依赖于其他事情。

例如，您的两个查询都具有在表上执行的SELECT语句，乍一看，它们需要读取所有行，但数据库服务器必须分析该语句以确定提取所请求数据的最有效方法。 这称为优化SELECT语句。 执行此操作的组件称为查询优化程序 。 查询优化器的输入包括查询，数据库模式（表和索引定义）以及数据库统计信息。 查询优化器的输出是查询执行计划 ，有时称为查询计划或仅计划。 （请参阅此有关查询处理体系结构的详细信息）

通过阅读本文，您可以在MSSQL中看到执行计划，我认为通过查看两个查询的执行计划，您将更好地理解。

编辑（Hive）

Hive提供EXPLAIN命令，显示查询的执行计划。 该语句的语法如下：

EXPLAIN [EXTENDED|DEPENDENCY|AUTHORIZATION] query

Hive查询将转换为一系列阶段。 阶段本身的描述显示了一系列运算符，其中包含与运算符关联的元数据。

有关更多信息，请参阅LanguageManual Explain 。

Answer 2

有什么令人惊讶的？ 第一个查询必须读取src_tb共200次。 第二个读取数据并执行200次聚合。 它更快更难以理解。

Hive查询效率

问题描述

2 个解决方案

解决方案1
4 已采纳 2018-03-07 19:41:01

解决方案2
1 2018-02-28 22:53:47

Hive查询效率

问题描述

2 个解决方案

解决方案1 4 已采纳 2018-03-07 19:41:01

解决方案2 1 2018-02-28 22:53:47

解决方案1
4 已采纳 2018-03-07 19:41:01

解决方案2
1 2018-02-28 22:53:47