簡體   English   中英

在非等式中加入蜂巢

[英]bucketing in non equi join in hive

目前,hive確實支持非equi join。 但是隨着交叉產品變得非常巨大,我想知道有哪些選項可以解決大型事實(2570億行,37噸)和相對較小(8.7 gb)的維度表連接。

在equi join的情況下,我可以通過在連接列/列上進行適當的分段來輕松地工作。 (使用相同數量的SMBM實際轉換為地圖連接)。 但是如果我們認為當它的非等式連接時它不具有任何優勢,因為值將存在於其他桶中,實際上觸發了一個混洗,即減少階段。

如果有任何人想要克服這一點,請建議.....

如果維度表適合內存,則可以創建此處所述的自定義用戶定義函數(UDF),並在內存中執行inequi-join。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM