[英]Hadoop / Hive upgrade performance
我們正在測試Hive和Hadoop以挖掘我們的數據,我安裝了不久的Hadoop 1.2.1和Hive 0.11(是穩定版本)
測試服務器為4核和16GB的ram。
現在我想知道切換到Hive 0.12和Hadoop 2.2是否值得在查詢性能方面升級服務器?
查詢如下所示:
SELECT i, day(time), count(distint value), count(*) from table lateral view explode(column) tab AS i group by i, day(time);
因此,查詢中的所有內容都被使用了,但是升級時我找不到關於性能提升的體面信息。
關於這個問題的任何見解將是不錯的:)
干杯
由於查詢不包含“ where”謂詞,因此即使數據采用ORC格式,也無法享受0.12中引入的謂詞下推到存儲層。
因此,盡管0.12的改進中有更快的計划生成和對COUNT的優化,但我認為,有根據的猜測應該是性能不會顯着提高。
對於這種查詢,如果擁有大量分區,則升級到Hive 12的唯一好處就是。 如果您有興趣,Apache JIRA HIVE-4051有更多信息。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.