簡體   English   中英

如果我在Hive中查詢分區表,將運行多少mapreduce作業

[英]How many mapreduce jobs will run if i query a partitioned table in hive

這似乎有點愚蠢。 但是只是想知道確切的答案。 假設我有一個包含2個分區的表。 如果對一個分區列運行查詢,則將在后台運行多少個地圖作業。

任何幫助將不勝感激!

提前致謝

我已經讀過,映射器的數量是根據以下公式確定的:(輸入大小除以塊大小)。 Hadoop 2的塊大小為128 MB。

因此,我假設您可以將該分區中文件的大小除以128 MB。

因此,這取決於兩件事:

  1. 默認情況下,對於不可拆分文件,Hadoop將為每個輸入文件運行一個Map任務。 因此,如果您的分區文件夾有100個輸入文件,它將運行100個映射器。 例如,這將是制表符分隔文本文件的默認設置。

  2. 如果文件是可拆分的,它將根據您的塊大小設置進行拆分。 這要求您使用可拆分文件格式,例如序列文件。

如果僅使用簡單的平面文件,則最容易推理。 希望能有所幫助。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM