[英]Hadoop Cluster Failover
我對Hadoop群集數據節點故障轉移有一些疑問:
1: What happen the link is down between the namenode and a datanode
(or between 2 datanodes) when the hadoop cluster is processing some data?
Does Hadoop cluster have any OOTB to recover this problem?
2: What happen one datanode is down when the hadoop cluster is processing
some data?
另外,另一個問題是關於Hadoop集群硬件配置的問題。 假設我們每天將使用hadoop集群來處理100GB日志文件,我們需要設置多少個數據節點? 對於每個數據節點的硬件配置(例如CPU,RAM,Hardisk)?
1:當hadoop集群正在處理某些數據時,namenode和一個datanode之間(或2個datanode之間)的鏈接斷開了怎么辦? Hadoop集群是否具有任何OOTB來解決此問題?
NN將不會從該節點收到任何心跳,因此將其視為已死。 在這種情況下,將在具有該數據的某個其他節點上調度在該節點上運行的任務。
2:當hadoop集群正在處理某些數據時,一個datanode發生故障怎么辦?
同上。
對於問題的第二部分:
這完全取決於您的數據和要執行的處理類型以及其他一些事項。 首先,100G不是適合MR處理的候選對象。 但是,如果您仍然需要它,那么任何一台像樣的機器都足以處理100G數據。
作為經驗法則,您可以考慮:
坦白說,這個過程涉及更多。 我強烈建議您通過此鏈接以獲取正確的想法。
我將從擁有5台機器的集群開始:
1 *碩士(NN + JT) -
磁盤:在JBOD配置中為3 * 1TB硬盤(對於OS是1個,對於FS映像是2個)
CPU: 2個四核CPU,至少運行2-2.5GHz
內存: 32 GB RAM
3個從站(DN + TT)-
磁盤: JBOD(僅一堆磁盤)配置中的3 * 2 TB硬盤
CPU: 2個四核CPU,至少運行2-2.5GHz
內存: 16 GB RAM
1 * SNN-
我會保持與主機相同。
100GB 不足以證明使用hadoop是合理的。 除非絕對需要,否則不要使用hadoop。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.