簡體 English 中英

配置單元查詢優化

[英]Query optimization for hive table

原文 2015-11-17 12:56:53 1 1 database/ hadoop/ mapreduce/ hive/ database-performance

我們有一個大小為100TB的表，並且有多個客戶使用同一張表（即每個客戶在不同的條件下使用）。 現在，問題陳述是客戶每次嘗試查詢其表時都要從上到下進行掃描。

這為所有查詢帶來了很多緩慢。 我們甚至無法基於任何業務密鑰對表進行分區/存儲。 有人可以提供解決方案或指向類似的問題陳述及其解決方案。

您可以提供您的建議以及替代技術，以便我們選擇最合適的技術。 謝謝。

1 個解決方案

我的2美分：嘗試使用帶有GZip壓縮（默認）和巧妙的分區/排序功能的ORC表...

每個在其WHERE子句中使用分區鍵的SELECT都將執行“分區修剪”，因此避免掃描所有內容[確定，確定，您說您在特定情況下沒有好的候選人，但總的來說，這樣做可以先說]
然后在范圍內的每個ORC文件中，將檢查最小/最大計數器的“條帶修剪”，進一步限制I / O

通過在插入時對數據進行巧妙的分區和巧妙的排序，使用最頻繁的過濾器，修剪可以非常高效。

然后，您可以研究優化，例如使用非默認的ORC條帶大小，非默認的“每個減少的字節數”閾值等。

參考：

最后一件事：具有15個用於運行查詢的節點，復制因子為3，每個HDFS塊在3個節點（20％）上“本地”可用，其余節點（80％）“遠程”上可用。 更高的復制因子可以減少I / O和網絡瓶頸-當然會以磁盤空間為代價。

MySQL查詢/表需要優化

[英]MySQL Query/Table in need of optimization

臨時表的MySQL查詢優化

[英]Mysql Query Optimization for Temporary table

mysql 同表內查詢優化

[英]mysql query optimization within the same table

[英]Optimization query

Scala 從 oracle 表中獲取詳細信息並在 hive 表中觸發查詢

[英]Scala to fetch the details from the oracle table and fire the query in hive table

SQL：如何減少查詢同一張表的多次時間

[英]SQL : How to reduce multiple time querying the same table ..Query Optimization

如何在不查詢的情況下估計HIVE中的表大小？

[英]How can I estimate a table size in HIVE without query?

配置單元查詢-按日期的第一個和最后一個條目的數據透視表

[英]Hive Query - Pivot Table by First and Last Entry of Date

在事務配置單元表上運行簡單配置單元選擇查詢時出現SemanticException [錯誤10265]

[英]SemanticException [Error 10265] while running simple hive select query on a transactional hive table

蜂巢-蜂巢子查詢問題

[英]Hive - Issue with the hive sub query

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 MySQL查詢/表需要優化臨時表的MySQL查詢優化 mysql 同表內查詢優化優化查詢 Scala 從 oracle 表中獲取詳細信息並在 hive 表中觸發查詢 SQL：如何減少查詢同一張表的多次時間如何在不查詢的情況下估計HIVE中的表大小？配置單元查詢-按日期的第一個和最后一個條目的數據透視表在事務配置單元表上運行簡單配置單元選擇查詢時出現SemanticException [錯誤10265] 蜂巢-蜂巢子查詢問題

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM