簡體   English   中英

數據倉庫中的 Redshift Dist Key 和 Sort Key

[英]Redshift Dist Key and Sort Key in a Data Warehouse

我在 Redshift 中有一個數據倉庫。 redshift 集群是一個2 nodes ra3.xlplus (4 vCPU, 32GB Memory)

我的尺寸相對較小 - 最大的尺寸有1M 條記錄 事實表將包含大約1000 萬條記錄

根據我目前檢查過的博客、答案和視頻,以下是 DISTKEY 和 SORTKEY 的正確組合嗎?

對於所有維度 - DIST STYLE - ALL (因為數據較少)

SORT KEY -維度的代理鍵

對於所有事實表 - DIST STYLE - KEY

DIST KEY - 最重要的暗表代理鍵,經常加入我的 BI 查詢中。

SORT KEY - Dim_Date_ID因為它用在 where 子句中。

有人可以幫助確認這是否是正確的組合嗎?

我檢查過的參考鏈接 - ThisThis

謝謝!

桑凱特

你是對的。 一般來說:

  • DISTKEY設置為JOIN中最常用的列
  • SORTKEY設置為WHERE中最常用的列

如果表很小,那么DISTKEY ALL很好——它將在所有節點之間復制表,從而減少跨節點數據傳輸。

最好對所有聯接的表使用相同的DISTKEY 這樣,數據分布在同一個節點上。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM