[英]Query optimization for hive table
我們有一個大小為100TB的表,並且有多個客戶使用同一張表(即每個客戶在不同的條件下使用)。 現在,問題陳述是客戶每次嘗試查詢其表時都要從上到下進行掃描。
這為所有查詢帶來了很多緩慢。 我們甚至無法基於任何業務密鑰對表進行分區/存儲。 有人可以提供解決方案或指向類似的問題陳述及其解決方案。
您可以提供您的建議以及替代技術,以便我們選擇最合適的技術。 謝謝。
我的2美分:嘗試使用帶有GZip壓縮(默認)和巧妙的分區/排序功能的ORC表...
通過在插入時對數據進行巧妙的分區和巧妙的排序,使用最頻繁的過濾器,修剪可以非常高效。
然后,您可以研究優化,例如使用非默認的ORC條帶大小,非默認的“每個減少的字節數”閾值等。
參考:
最后一件事:具有15個用於運行查詢的節點,復制因子為3,每個HDFS塊在3個節點(20%)上“本地”可用,其余節點(80%)“遠程”上可用。 更高的復制因子可以減少I / O和網絡瓶頸-當然會以磁盤空間為代價。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.