如何确定一次运行MR2作业可以处理的最大数据量？

Question

我正在CDH 5.3群集上运行YARN作业。 我有默认配置。

No of nodes=3
yarn.nodemanager.resource.cpu-vcores=8
yarn.nodemanager.resource.memory-mb=10GB
mapreduce.[map/reduce].cpu.vcores=1
mapreduce.[map/reduce].memory.mb=1GB
mapreduce.[map | reduce].java.opts.max.heap=756MB

在分散在11个文件上的4.5GB CSV数据上运行时，出现以下错误：

2015-10-12 05:21:04,507 FATAL [IPC Server handler 18 on 50388] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Task: attempt_1444634391081_0005_r_000000_0 - exited : org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#9
    at org.apache.hadoop.mapreduce.task.reduce.Shuffle.run(Shuffle.java:134)
    at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:376)
    at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:168)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:415)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1642)
    at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:163)
Caused by: java.lang.OutOfMemoryError: Java heap space
    at org.apache.hadoop.io.BoundedByteArrayOutputStream.<init>(BoundedByteArrayOutputStream.java:56)
    at org.apache.hadoop.io.BoundedByteArrayOutputStream.<init>(BoundedByteArrayOutputStream.java:46)
    at org.apache.hadoop.mapreduce.task.reduce.InMemoryMapOutput.<init>(InMemoryMapOutput.java:63)
    at org.apache.hadoop.mapreduce.task.reduce.MergeManagerImpl.unconditionalReserve(MergeManagerImpl.java:303)
    at org.apache.hadoop.mapreduce.task.reduce.MergeManagerImpl.reserve(MergeManagerImpl.java:293)
    at org.apache.hadoop.mapreduce.task.reduce.Fetcher.copyMapOutput(Fetcher.java:511)
    at org.apache.hadoop.mapreduce.task.reduce.Fetcher.copyFromHost(Fetcher.java:329)
    at org.apache.hadoop.mapreduce.task.reduce.Fetcher.run(Fetcher.java:193)

然后，我将mapreduce.reduce.memory.mb = 1GB调整为mapreduce.reduce.memory.mb = 3GB，作业运行良好。

那么，假设映射器的所有输入都只能由1个reducer处理，那么如何决定1个reducer可以处理多少数据最大值呢？

Answer 1

通常，单个Reducer可以处理的数据没有限制。 内存分配可以减慢处理速度，但不能限制或无法处理数据。 我相信在将最小的内存分配给reducer之后，数据处理应该不是问题。 您能否共享一些代码片段以检查是否有内存泄漏问题。 我们曾经在单个reducer中处理6 + Gb的文件，没有任何问题。 我相信您可能遇到了内存泄漏问题。

如何确定一次运行MR2作业可以处理的最大数据量？

问题描述

1 个解决方案

解决方案1
0 2015-10-19 12:38:02

如何确定一次运行MR2作业可以处理的最大数据量？

问题描述

1 个解决方案

解决方案1 0 2015-10-19 12:38:02

解决方案1
0 2015-10-19 12:38:02