hadoop mapreduce teragen FAIL_CONTAINER_CLEANUP

Question

我的hadoop集群遇到了一些麻烦。 我试着用它做一些基准来检查它的表现，看看mapreduce是否工作正常，但我有一些奇怪的beahviours。 事实是mapreduce正在开始并处理它的映射阶段，但我从中得到了一些错误：我首先使用teragen创建数据：

$ hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar teragen 500 random-data

然后工作开始，我在没有停止过程的情况下遇到了一些失败：

17/02/23 12:29:27 INFO client.RMProxy：在/172.16.138.145:8032连接到ResourceManager

17/02/23 12:29:28 INFO terasort.TeraSort：使用2生成500

17/02/23 12:29:28 INFO mapreduce.JobSubmitter：拆分次数：2

17/02/23 12:29:28 INFO mapreduce.JobSubmitter：提交工作代币：job_1487846108320_0007

17/02/23 12:29:28 INFO impl.YarnClientImpl：提交的应用程序application_1487846108320_0007

17/02/23 12:29:28 INFO mapreduce.Job：跟踪工作的网址： http ：//172.16.138.145：8088 / proxy / application_1487846108320_0007 /

17/02/23 12:29:28 INFO mapreduce.Job：正在运行的职位：job_1487846108320_0007

17/02/23 12:29:34 INFO mapreduce.Job：工作职位_1487846108320_0007以超级模式运行：false

17/02/23 12:29:34 INFO mapreduce.Job：地图0％减少0％

17/02/23 12:29:47 INFO mapreduce.Job：任务ID：attempt_1487846108320_0007_m_000001_0，状态：未通过

17/02/23 12:29:48 INFO mapreduce.Job：任务ID：attempt_1487846108320_0007_m_000000_0，状态：未通过

17/02/23 12:30:02 INFO mapreduce.Job：地图50％减少0％

17/02/23 12:30:02 INFO mapreduce.Job：任务ID：attempt_1487846108320_0007_m_000001_1，状态：未通过

17/02/23 12:30:03 INFO mapreduce.Job：地图0％减少0％

17/02/23 12:30:03 INFO mapreduce.Job：任务ID：attempt_1487846108320_0007_m_000000_1，状态：未通过

17/02/23 12:30:15 INFO mapreduce.Job：任务ID：attempt_1487846108320_0007_m_000001_2，状态：未通过

17/02/23 12:30:16 INFO mapreduce.Job：任务ID：attempt_1487846108320_0007_m_000000_2，状态：未通过

17/02/23 12:30:30 INFO mapreduce.Job：地图100％减少0％

17/02/23 12:30:31 INFO mapreduce.Job：作业job_1487846108320_0007因状态失败而失败，原因是：任务失败任务_1487846108320_0007_m_000001

任务失败，作业失败。 failedMaps：1次失败减少：0

我检查了相关datanode中的日志，发现每个失败都会重复以下行：

2017-02-23 11：36：12,901 INFO [AsyncDispatcher事件处理程序] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl：attempt_1487846108320_0001_m_000001_1 TaskAttempt从RUNNING转换为FAIL_CONTAINER_CLEANUP

2017-02-23 11：36：12,901 INFO [AsyncDispatcher事件处理程序] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl：来自attempt_1487846108320_0001_m_000001_1的诊断报告：

2017-02-23 11：36：12,902 INFO [ContainerLauncher＃5] org.apache.hadoop.mapreduce.v2.app.launcher.ContainerLauncherImpl：处理事件EventType：CONTAINER_REMOTE_CLEANUP for container container_1487846108320_0001_01_000004 taskAttempt attempt_1487846108320_0001_m_000001_1

2017-02-23 11：36：12,903 INFO [ContainerLauncher＃5] org.apache.hadoop.mapreduce.v2.app.launcher.ContainerLauncherImpl：KILLING attempt_1487846108320_0001_m_000001_1

2017-02-23 11：36：12,903 INFO [ContainerLauncher＃5] org.apache.hadoop.yarn.client.api.impl.ContainerManagementProtocolProxy：Opening proxy：Datanode3：34121

2017-02-23 11：36：12,923 INFO [AsyncDispatcher事件处理程序] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl：attempt_1487846108320_0001_m_000001_1 TaskAttempt从FAIL_CONTAINER_CLEANUP转换为FAIL_TASK_CLEANUP

2017-02-23 11：36：12,924 INFO [CommitterEvent Processor＃2] org.apache.hadoop.mapreduce.v2.app.commit.CommitterEventHandler：处理事件EventType：TASK_ABORT

2017-02-23 11：36：12,932 WARN [CommitterEvent Processor＃2] org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter：无法删除hdfs：//172.16.138.145：9000 / user / hdfs / random- dataSmallV7.7 / _temporary / 1 / _temporary / attempt_1487846108320_0001_m_000001_1

2017-02-23 11：36：12,932 INFO [AsyncDispatcher事件处理程序] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl：attempt_1487846108320_0001_m_000001_1 TaskAttempt从FAIL_TASK_CLEANUP转换为FAILED

在这种情况下，作业失败但有时我得到错误但作业将成功。 （很少）你知道这个FAIL_CONTAINER_CLEANUP的原因是什么吗？ 或者这个问题的潜在原因是什么？ 这里只使用映射器并且没有请求减速器，但在其他情况下涉及减速器时，也会发生错误。

提前感谢您的想法。

Answer 1

我终于解决了。 我在引用到我的节点的某些/ etc / hosts文件中有一行：127.0.1.1 Datanode1

我用我机器的FQDN替换了这一行：172.16.138.147 Datanode1

这允许hadoop找到我的服务器的引用并修复此错误。

我希望这会有助于其他人。

hadoop mapreduce teragen FAIL_CONTAINER_CLEANUP

问题描述

1 个解决方案

解决方案1
0 已采纳 2017-03-01 09:49:06

hadoop mapreduce teragen FAIL_CONTAINER_CLEANUP

问题描述

1 个解决方案

解决方案1 0 已采纳 2017-03-01 09:49:06

解决方案1
0 已采纳 2017-03-01 09:49:06