HDFS中用於異構Hadoop集群的數據放置和分發

Question

我已經安裝了具有5個異構節點的Apache Hadoop 2.x ，其中一個節點專門用於NameNode。

我正在使用以下命令將輸入文件放入HDFS 。

$ hdfs dfs -put /home/hduser/myspace/data /user/hduser/inputfile

HDFS將此輸入文件復制到三個DataNodes (DN) ，這意味着第四個DataNode沒有輸入塊。 如果我使用8個映射器（通過使用NLineInputFormat()方法設置拆分大小），那么會將這8個映射器分配給所有4個DN。 我認為應該是。 在這種情況下，來自其他DN的數據塊將移至第4個DN，由分配給它的映射器進行計算，這會增加總體執行時間。

我的問題是：

我們能否以某種方式設法將數據塊放置在每個DN上，從而無需在特定DN上移動映射器的數據。 它可以通過hdfs的“ put”命令完成嗎？
同樣在異構集群的情況下，是否可以根據節點的計算能力將不同大小的數據放在不同的DN上？

Answer 1

我們無法在每個DN上放置數據塊。您提到了HDFS將文件復制到3個DN。 僅當文件大小小於塊大小時，這才是正確的。 HDFS通過將文件分成多個塊來復制數據。 因此，文件數據（塊）分布在所有4個DN中的可能性更大。

Answer 2

塊放置完全取決於hadoop，它將在內部管理塊放置，您只能通過以下方式配置復制數量：

dfs.replication.factor

或大小

dfs.block.size

完成您的期望。

如果要檢查塊放置，可以打開HDFS的Web UI，即

名稱節點：50070

並瀏覽到此處的文件，它將向您顯示所有節點之間的塊放置。

HDFS中用於異構Hadoop集群的數據放置和分發

問題描述

2 個解決方案

解決方案1
0 2015-10-12 15:58:39

解決方案2
0 2015-10-14 13:27:17

HDFS中用於異構Hadoop集群的數據放置和分發

問題描述

2 個解決方案

解決方案1 0 2015-10-12 15:58:39

解決方案2 0 2015-10-14 13:27:17

解決方案1
0 2015-10-12 15:58:39

解決方案2
0 2015-10-14 13:27:17