簡體   English   中英

如何使用動態分區在表上優化Hive查詢

[英]How to optimize Hive query on table with dynamic partitioning

我有根據日期和小時從分區表resultdate字段這是在格式2/5/2013 9:24:00 AM

我正在使用日期和小時進行動態分區,並執行

insert overwrite table partition(date, hour)
{
select x,y,z, date , hour
}
from table 1.

我大約有150萬條記錄,大約需要4個小時才能完成。 這是正常現象嗎,有哪些優化方法?

增加群集大小,否則將花費很多時間。

這是不正常的,除非您在具有1個節點的虛擬機中工作:) ..嘗試設置此標志

set hive.optimize.sort.dynamic.partition=false;

我不確定為什么在某些發行版中默認將其設置為true。

有很多方案,

  • 檢查是否可以使用TEZ引擎來提高執行時間。
  • 是否可以更改我們存儲文件的方式,RC格式可能會有所幫助。
  • 將hive.exec.max.dynamic.partitions和hive.exec.max.dynamic.partitions優化為最佳值。
  • 增加集群也很好(如果可行)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM