繁体   English   中英

如何将初始输入文件分发到Hadoop MapReduce中的节点?

[英]How to distribute the initial input files to nodes in Hadoop MapReduce?

我有一个hadoop集群,其中有两台计算机,一台作为主计算机,另一台作为从计算机。 我的输入数据存在于Master的本地磁盘上,我也已在HDFS系统中复制了输入数据文件。 现在我的问题是,如果我在此集群上运行MapReduce任务,则整个输入文件仅存在于一个系统上(我认为这与MapReduce的“数据局部性”的基本原理相反)。 我想知道是否有任何机制可以对初始文件进行分发/分区,以便可以将输入文件分发到群集的不同节点上。

假设您的集群由节点1和节点2组成。如果节点1是主节点,则该节点上没有运行Datanode。 因此,您在节点2上只有一个Datanode,所以当您说"so that the input files can be distributed on the different nodes of the cluster"时,我不确定您的意思,因为在当前设置下,您只有1个节点可以在上面存储数据。

但是,如果考虑一个通用的n节点群集,那么如果将数据复制到HDFS中,那么数据将由hadoop本身分配到群集的不同节点上,因此您不必为此担心。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM