蜂巢：優化長期運行的查詢

Question

在50GB大小的員工日志表上運行的簡單Hive SQL查詢運行了幾個小時。

select dept,count(distinct emp_id) from emp_log group by dept;

只有4-5個部門，每個部門有大量員工。

它以Hive 0.14 + Tez在1TB內存上運行。 有什么方法可以優化此代碼塊以獲得更好的性能？

修改1
測試用collect_list替換不重復。

SELECT dept, size(collect_list(emp_id)) nb_emps FROM emp_log GROUP BY dept

出現以下錯誤，
Status: Failed Vertex failed, vertexName=Reducer 2,vertexId=vertex_1446976653619_0043_1_02, diagnostics=[Task failed,taskId=task_1446976653619_0043_1_02_000282, diagnostics=[TaskAttempt 0 failed, info=[Error: Failure while running task:java.lang.RuntimeException: java.lang.OutOfMemoryError: Java heap space

Answer 1

您應該嘗試避免count（distinct foo） ：

SELECT dept, size(collect_list(emp_id)) nb_emps
FROM emp_log 
GROUP BY dept

count（distinct x）在HIVE 0.14中無效。

另外，您應該為以下列激活統計信息：

ANALYZE TABLE emp_log COMPUTE STATISTICS;
ANALYZE TABLE emp_log COMPUTE STATISTICS FOR COLUMNS dept, emp_id;

Answer 2

增加以下屬性后，請再次嘗試測試用例：

在Hive Configs中：

hive.tez.conatiner.size

在Tez配置中：

1） tez.task.resource.memory.mb

2） tez.task.launch.cmd-opts > -Xmx作為tez.task.resource.memory.mb 80％

3） tez.am.resource.memory.mb

4） tez.am.launch.cmd-opts > -Xmx占tez.am.resource.memory.mb 80％

這應該至少解決Java Heap空間問題。

Answer 3

您使用count（distinct）的查詢強制使用單個化簡器。 如果使用子查詢，則不需要單個reducer。

select dept, count(*) from
    (select dept, emp_id from emp_log 
     group by dept, emp_id
     ) a
group by dept;

這應該快得多。 干杯!

蜂巢：優化長期運行的查詢

問題描述

3 個解決方案

解決方案1
0 2015-11-09 09:38:32

解決方案2
0 2016-03-07 10:34:28

解決方案3
0 2016-03-07 19:15:40

蜂巢：優化長期運行的查詢

問題描述

3 個解決方案

解決方案1 0 2015-11-09 09:38:32

解決方案2 0 2016-03-07 10:34:28

解決方案3 0 2016-03-07 19:15:40

解決方案1
0 2015-11-09 09:38:32

解決方案2
0 2016-03-07 10:34:28

解決方案3
0 2016-03-07 19:15:40