[英]How Hadoop distribute data and mapreduce task across multiple data nodes
[英]How to distribute the initial input files to nodes in Hadoop MapReduce?
我有一个hadoop集群,其中有两台计算机,一台作为主计算机,另一台作为从计算机。 我的输入数据存在于Master的本地磁盘上,我也已在HDFS系统中复制了输入数据文件。 现在我的问题是,如果我在此集群上运行MapReduce任务,则整个输入文件仅存在于一个系统上(我认为这与MapReduce的“数据局部性”的基本原理相反)。 我想知道是否有任何机制可以对初始文件进行分发/分区,以便可以将输入文件分发到群集的不同节点上。
假设您的集群由节点1和节点2组成。如果节点1是主节点,则该节点上没有运行Datanode。 因此,您在节点2上只有一个Datanode,所以当您说"so that the input files can be distributed on the different nodes of the cluster"
时,我不确定您的意思,因为在当前设置下,您只有1个节点可以在上面存储数据。
但是,如果考虑一个通用的n节点群集,那么如果将数据复制到HDFS中,那么数据将由hadoop本身分配到群集的不同节点上,因此您不必为此担心。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.