繁体 English 中英

纱：与集群大小相比，如何使用具有大量映射器的MapReduce作业

[英]YARN: How to run MapReduce jobs with lot of mappers comparing to cluster size

原文 2014-04-28 18:47:31 5 1 hadoop/ mapreduce/ scheduling/ yarn

我有一个带有MapReduce作业的1节点Hadoop测试设置，该设置启动了96个映射器和6个reducer。 在迁移到YARN之前，此工作稳定但正常。 使用YARN，它开始挂起100％，大多数映射器处于“待定”状态。

工作实际上是6个子工作（每个16个映射器+ 1个reducer）。 此配置反映了生产过程的顺序。 所有这些都在单个JobControl下。 对于这种情况，与集群大小相比，节点数量少且作业量相对较大，是否需要检查任何配置或最佳实践？

当然，我与性能无关，而只是为开发人员传递这份工作的能力。 最坏的情况是我可以“减少工作”以分组子工作，但是我不想这样做，因为在生产中没有理由这样做，并且我希望测试和生产顺序相同。

当我迁移到YARN时，将Scheduler更改为FairScheduler，并且这是我运行Cloudera的唯一选择，并且Cloudera强烈建议您不要使用任何东西，而要使用fair scheduler 。 因此，切换到FIFO调度程序不是一种选择。

在我看来，除了“重新设计工作”之外，还有其他选择吗？

1 个解决方案

目前，通过禁用“每个用户的队列”逻辑（切换到单个队列）和使用分配文件限制正在运行的应用程序数量，解决了我的麻烦。 根据http://hadoop.apache.org/docs/r2.3.0/hadoop-yarn/hadoop-yarn-site/FairScheduler.html的要求，这几乎可以为每个队列配置所需的任何内容。

以下是实际步骤：

yarn.scheduler.fair.user-as-default-queue设置为false。
在Cloudera Manager中，更改了队列“默认”的动态资源分配，因此队列最多允许运行2个应用程序。 对于1节点设计测试工具已经足够好了。 在开源中，这将是对分配文件的更正。

现在可以根据需要工作了。 保留所有其他内容，包括默认策略。

wordCount mapReduce如何在apo tez的hadoop纱线集群上运行？

[英]How wordCount mapReduce jobs, run on hadoop yarn cluster with apache tez?

没有映射器或化简器的作业

[英]jobs run with no mappers or reducers

MapReduce：如何将HashMap传递给映射器

[英]MapReduce: How to pass HashMap to mappers

运行 MR/TEZ/SPARK 作业的纱线 ui 中的队列百分比和集群差异百分比

[英]% of Queue and % of Cluster difference in yarn ui for MR/TEZ/SPARK jobs run

可以同时运行多少个Mapreduce作业

[英]How many Mapreduce Jobs can be run simultaneously

如何让hive同时运行mapreduce作业？

[英]How to make hive run mapreduce jobs concurrently?

在EMR MapReduce2 YARN中分配资源（映射器数）的问题

[英]Issue allocating resources (Number of Mappers) in EMR MapReduce2 YARN

随着集群规模的增加，在带有AMI 3.1.0和Hadoop 2.4.0的Elastic MapReduce上，每个节点的并发运行的映射器数量急剧下降

[英]Number of concurrently running mappers per node drops precipitously on Elastic MapReduce w/ AMI 3.1.0 and Hadoop 2.4.0 as cluster size increases

YARN接受后，MapReduce作业失败

[英]MapReduce Jobs failing, after accepted by YARN

如何检查YARN mapreduce任务的最大堆大小设置

[英]How to check YARN mapreduce tasks max heap size setting

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 wordCount mapReduce如何在apo tez的hadoop纱线集群上运行？没有映射器或化简器的作业 MapReduce：如何将HashMap传递给映射器运行 MR/TEZ/SPARK 作业的纱线 ui 中的队列百分比和集群差异百分比可以同时运行多少个Mapreduce作业如何让hive同时运行mapreduce作业？在EMR MapReduce2 YARN中分配资源（映射器数）的问题随着集群规模的增加，在带有AMI 3.1.0和Hadoop 2.4.0的Elastic MapReduce上，每个节点的并发运行的映射器数量急剧下降 YARN接受后，MapReduce作业失败如何检查YARN mapreduce任务的最大堆大小设置

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM