簡體   English   中英

Hive分區的工作方式

[英]How Hive Partition works

我想知道配置單元分區是如何工作的,我知道這個概念,但是我想了解它的工作原理並將其存儲在精確的分區中。 假設我有一個表,並且是從2013年開始按其動態提取的數據創建分區的,所以如何配置單元創建分區並將確切的數據存儲在准確的分區中。

Hive將表組織到分區中。 這是一種基於分區列的值(例如日期)將表划分為相關部分的方法。

除了作為存儲單元以外, Partitions還允許用戶有效地標識滿足特定條件的行。

使用分區,很容易查詢一部分數據。

表或分區被細分為存儲桶,以為數據提供額外的結構,這些數據可用於更有效的查詢。 存儲桶基於表某列的哈希函數的值進行工作。

假設您需要檢索所有2012年加入的員工的詳細信息。查詢將在整個表中搜索所需的信息。 但是,如果按年份對員工數據進行分區並將其存儲在單獨的文件中,則會減少查詢處理時間。

如果未對表進行分區,則所有數據將不按順序存儲在一個目錄中。 如果表已分區(例如按年),則數據分別存儲在不同目錄中。 每個目錄對應一年。 對於非分區表,當您要獲取year = 2010的數據時,配置單元必須掃描整個表以查找2010記錄。 如果表已分區,配置單元只需轉到year = 2010目錄。 更快,IO效率更高

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM