簡體 English 中英

YARN和Hadoop

[英]YARN and Hadoop

原文 2016-03-27 22:38:51 1 1 hadoop/ yarn

關於HDFS的作業提交和Hadoop中的YARN架構，我有幾個問題：

因此，在Hadoop生態系統中，每個集群都有一個NameNode，它可以包含存儲數據的任意數量的數據節點。 當您向Hadoop提交作業時，NameNode上的作業跟蹤器將選擇每個作業並將其分配給數據節點上存在該文件的任務跟蹤器。

所以我的問題是YARN的組件如何在HDFS中協同工作：？

所以YARN由NodeManager和資源管理器組成。 在這兩個組件中：NodeManager是否在每個DataNode上運行，並且ResourceManager在每個群集的每個NameNode上運行？ 因此，當任務跟蹤器（在每個DataNode中）從作業跟蹤器（在NameNode中）分配任務時，特定數據節點中的NodeManager將創建一個容器，該容器將從NameNode中的ResourceManager請求資源。因此，當數據節點中的任務跟蹤器從NameNode中的作業跟蹤器獲取作業時，此資源管理器和節點管理器才會發揮作用，其中NodeManager將向ResourceManager請求資源以執行作業。 它是否正確？

1 個解決方案

你是部分正確的。 為了避免Jobtracker做調度和監控的負擔，YARN被引入了畫面。 因此，對於YARN，您沒有任何作業跟蹤器或任務跟蹤器。 Job tracker完成的工作現在由Resource Manager完成，它有兩個主要組件Scheduler（為應用程序分配資源）和ApplicationsManager（接受作業提交並在發生任何故障時重新啟動ApplicationMaster）。 現在每個應用程序都有一個ApplicationMaster，它從調度程序協商容器（運行作業的位置）以運行應用程序。

Nodemanager在每個從節點/數據節點上運行。 可以/可能不安裝資源管理器，其中存在namenode。 對於大型集群，我們通常需要分離主服務器，以便負載不會轉到單個機器上。