繁体 English 中英

如何将初始输入文件分发到Hadoop MapReduce中的节点？

[英]How to distribute the initial input files to nodes in Hadoop MapReduce?

原文 2013-06-28 17:20:35 1 1 java/ hadoop/ mapreduce/ hdfs

我有一个hadoop集群，其中有两台计算机，一台作为主计算机，另一台作为从计算机。 我的输入数据存在于Master的本地磁盘上，我也已在HDFS系统中复制了输入数据文件。 现在我的问题是，如果我在此集群上运行MapReduce任务，则整个输入文件仅存在于一个系统上（我认为这与MapReduce的“数据局部性”的基本原理相反）。 我想知道是否有任何机制可以对初始文件进行分发/分区，以便可以将输入文件分发到群集的不同节点上。

1 个解决方案

假设您的集群由节点1和节点2组成。如果节点1是主节点，则该节点上没有运行Datanode。 因此，您在节点2上只有一个Datanode，所以当您说"so that the input files can be distributed on the different nodes of the cluster"时，我不确定您的意思，因为在当前设置下，您只有1个节点可以在上面存储数据。

但是，如果考虑一个通用的n节点群集，那么如果将数据复制到HDFS中，那么数据将由hadoop本身分配到群集的不同节点上，因此您不必为此担心。

Hadoop如何在多个数据节点之间分配数据和Mapreduce任务

[英]How Hadoop distribute data and mapreduce task across multiple data nodes

Hadoop Mapreduce多个输入文件

[英]Hadoop Mapreduce multiple Input files

在hadoop mapreduce中读取2个输入文件

[英]Reading 2 input files in hadoop mapreduce

多个文件作为Hadoop Dfs和mapreduce的输入

[英]Multiple files as input to Hadoop Dfs and mapreduce

Hadoop的RunJar方法如何跨节点分发类/ jar文件？

[英]How does Hadoop's RunJar method distribute class/jar files across nodes?

使用Hadoop MapReduce在不同的节点上处理不同的文件

[英]Processing different files on separate nodes using Hadoop MapReduce

如何在Hadoop Mapreduce中处理两个文件？

[英]How to process two files in Hadoop Mapreduce?

Hadoop mapreduce 2个文件过滤？

[英]Hadoop mapreduce 2 files filtering?

如何将Hadoop MapReduce作业限制为一定数量的节点？

[英]How to limit a Hadoop MapReduce job to a certain number of nodes?

Hadoop mapreduce空输入格式

[英]Hadoop mapreduce Empty Input Format

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Hadoop如何在多个数据节点之间分配数据和Mapreduce任务 Hadoop Mapreduce多个输入文件在hadoop mapreduce中读取2个输入文件多个文件作为Hadoop Dfs和mapreduce的输入 Hadoop的RunJar方法如何跨节点分发类/ jar文件？使用Hadoop MapReduce在不同的节点上处理不同的文件如何在Hadoop Mapreduce中处理两个文件？ Hadoop mapreduce 2个文件过滤？如何将Hadoop MapReduce作业限制为一定数量的节点？ Hadoop mapreduce空输入格式

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM