繁体 English 中英

减少Hive查询执行时间的方法

[英]Approach to reduce the execution time of a Hive query

原文 2019-03-07 14:13:47 0 2 hadoop/ hive/ query-optimization/ yarn

由于交易表中的数据量很大，我们每天在下面的查询中运行此查询，此查询运行3个小时左右。 有什么方法可以调整此查询或减少执行时间？

   CREATE TEMPORARY TABLE t1 AS
    SELECT DISTINCT EVENT_DATE FROM (
      SELECT DISTINCT EVENT_DATE FROM mstr_wrk.cust_transation
      WHERE load_date BETWEEN CAST(CAST('2019-03-05 04:00:31.0' AS TIMESTAMP) AS DATE) AND CURRENT_DATE() AND  event_title = 'SETUP'
      AND state != 'INACTIVE' AND mode != 'DORMANT') T

我试图减少减速器的数量以帮助加快速度，并且还尝试实现矢量化，但是在这里运气并不好。 我们正在tez上运行。

2 个解决方案

重新设计表并使用INDEX。

例如，我将使用数字“状态”列或枚举，以及数字或枚举“事件”列。 这可以帮助创建有效的索引，而不是varchar或文本类型。

如果查询正在使用索引，索引将大大提高查询速度。

无论如何，不知道表的结构和所涉及的记录数，我只是在猜测...

您无需两次申请DISTINCT
如果表mstr_wrk.cust_transation被划分load_date ，因为你使用的功能分区修剪将无法正常工作。 这将导致表完全扫描。 在shell脚本中计算日期并作为参数传递

在参数化脚本之前检查此脚本性能

  CREATE TEMPORARY TABLE t1 AS
      SELECT DISTINCT EVENT_DATE FROM mstr_wrk.cust_transation
      WHERE load_date >= '2019-03-05' AND load_date <= '2019-03-07' 
            AND  event_title = 'SETUP'
            AND state != 'INACTIVE' AND mode != 'DORMANT'

减少大型查询的执行时间

[英]Reduce the execution time of large query

配置单元查询执行问题

[英]Hive query execution issue

执行之前配置单元查询执行估计的强度

[英]Intensity of hive query execution estimate before execution

Hive查询仅花费大量时间来启动map-reduce作业

[英]Hive query taking a lot of time just to launch map-reduce jobs

减少许多Hive -e调用的Hive启动时间

[英]Reduce hive startup time for many hive -e invocations

配置单元查询卡在执行中间

[英]Hive query getting stuck in the middle of execution

Hue 内部架构和 hive 查询执行

[英]Hue internal architecture and hive query execution

蜂巢表上基于时间的查询

[英]time based query on hive table

如何从Hive Query获取Map Reduce代码？

[英]How to obtain Map Reduce code from Hive Query?

通过Oozie运行配置单元查询的CPU时间

[英]CPU time for hive query run through oozie

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 减少大型查询的执行时间配置单元查询执行问题执行之前配置单元查询执行估计的强度 Hive查询仅花费大量时间来启动map-reduce作业减少许多Hive -e调用的Hive启动时间配置单元查询卡在执行中间 Hue 内部架构和 hive 查询执行蜂巢表上基于时间的查询如何从Hive Query获取Map Reduce代码？通过Oozie运行配置单元查询的CPU时间

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM