[英]Hadoop Yarn - how to request fix number of containers
Apache Spark或Hadoop Mapreduce如何請求固定數量的容器?
在Spark yarn-client模式下,可以通過設置配置spark.executor.instances來請求它,該配置與它獲得的YARN容器的數量直接相關。 Spark如何將其轉換為Yarn可以理解的Yarn參數?
我知道默認情況下,它可以取決於分割的數量和配置值yarn.scheduler.minimum-allocation-mb
, yarn.scheduler.minimum-allocation-vcores
。 但是Spark有能力精確地請求固定數量的容器。 任何AM如何做到這一點?
在Hadoop Mapreduce中,用於地圖任務的容器數取決於輸入拆分的數目。 它基於源文件的大小。 對於每個Input拆分,將請求一個地圖容器。
默認情況下,每個作業的Reducer數量為一。 可以通過將參數傳遞給mapreduce.reduce.tasks來對其進行定制。 Pig&Hive具有不同的邏輯來確定減速器的數量。 (也可以自定義)。
每個減速器需要一個容器(減少容器,通常比地圖容器大)。
提交作業期間,作業配置文件中將明確定義映射器和化簡器的總數。
我認為是通過使用yarn提供的AM api。 AM提供程序可以使用rsrcRequest.setNumContainers(numContainers);
http://hadoop.apache.org/docs/r2.5.2/hadoop-yarn/hadoop-yarn-site/WritingYarnApplications.html#Writing_a_simple_Client在這里,我對其他問題也進行了類似的討論。 紗線容器的理解和調整
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.