簡體   English   中英

Hive Bucketing如何有益於地圖側聯接?

[英]How Hive Bucketing are benificial for map side join?

我了解蜂箱中的什么,並且我對此有很深的了解。 我正在閱讀蜂巢文檔 ,其中提到:

桶式表的奇妙之處在於,與非桶式表相比,它們可提供更高效的采樣,並且它們以后可用於節省時間的操作(如mapside聯接)。

誰能解釋說存儲區對地圖側聯接有何好處?

提前致謝。

shuffle階段確實很昂貴,因為它需要排序和合並。保存shuffle和reduce階段可以提高任務性能。map join的動機是刪除shuffle和reduce階段,然后在Map phase本身中進行聯接。該表之一足夠小以適合內存,所有映射器都可以將數據保存在內存中並在那里進行連接工作。 因此,在“排序合並”存儲桶聯接中,兩個表都是存儲桶,一個表中的存儲桶數量是另一張表的一半。由於其中一個存儲桶表很小,足以容納內存,因此我們可以利用Map的優勢通過跳過隨機播放和完全減少相位來加入此處。

桶聯接的示例

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM