[英]bucketing in non equi join in hive
目前,hive確實支持非equi join。 但是隨着交叉產品變得非常巨大,我想知道有哪些選項可以解決大型事實(2570億行,37噸)和相對較小(8.7 gb)的維度表連接。
在equi join的情況下,我可以通過在連接列/列上進行適當的分段來輕松地工作。 (使用相同數量的SMBM實際轉換為地圖連接)。 但是如果我們認為當它的非等式連接時它不具有任何優勢,因為值將存在於其他桶中,實際上觸發了一個混洗,即減少階段。
如果有任何人想要克服這一點,請建議.....
如果維度表適合內存,則可以創建此處所述的自定義用戶定義函數(UDF),並在內存中執行inequi-join。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.