[英]Redshift Dist Key and Sort Key in a Data Warehouse
我在 Redshift 中有一個數據倉庫。 redshift 集群是一個2 nodes ra3.xlplus (4 vCPU, 32GB Memory)
。
我的尺寸相對較小 - 最大的尺寸有1M 條記錄。 事實表將包含大約1000 萬條記錄。
根據我目前檢查過的博客、答案和視頻,以下是 DISTKEY 和 SORTKEY 的正確組合嗎?
對於所有維度 - DIST STYLE - ALL (因為數據較少)
SORT KEY -維度的代理鍵
對於所有事實表 - DIST STYLE - KEY
DIST KEY - 最重要的暗表代理鍵,經常加入我的 BI 查詢中。
SORT KEY - Dim_Date_ID因為它用在 where 子句中。
有人可以幫助確認這是否是正確的組合嗎?
謝謝!
桑凱特
你是對的。 一般來說:
DISTKEY
設置為JOIN
中最常用的列SORTKEY
設置為WHERE
中最常用的列如果表很小,那么DISTKEY ALL
很好——它將在所有節點之間復制表,從而減少跨節點數據傳輸。
最好對所有聯接的表使用相同的DISTKEY
。 這樣,數據分布在同一個節點上。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.