繁体   English   中英

hadoop mapreduce teragen FAIL_CONTAINER_CLEANUP

[英]hadoop mapreduce teragen FAIL_CONTAINER_CLEANUP

我的hadoop集群遇到了一些麻烦。 我试着用它做一些基准来检查它的表现,看看mapreduce是否工作正常,但我有一些奇怪的beahviours。 事实是mapreduce正在开始并处理它的映射阶段,但我从中得到了一些错误:我首先使用teragen创建数据:

$ hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar teragen 500 random-data

然后工作开始,我在没有停止过程的情况下遇到了一些失败:

17/02/23 12:29:27 INFO client.RMProxy:在/172.16.138.145:8032连接到ResourceManager

17/02/23 12:29:28 INFO terasort.TeraSort:使用2生成500

17/02/23 12:29:28 INFO mapreduce.JobSubmitter:拆分次数:2

17/02/23 12:29:28 INFO mapreduce.JobSubmitter:提交工作代币:job_1487846108320_0007

17/02/23 12:29:28 INFO impl.YarnClientImpl:提交的应用程序application_1487846108320_0007

17/02/23 12:29:28 INFO mapreduce.Job:跟踪工作的网址: http ://172.16.138.145:8088 / proxy / application_1487846108320_0007 /

17/02/23 12:29:28 INFO mapreduce.Job:正在运行的职位:job_1487846108320_0007

17/02/23 12:29:34 INFO mapreduce.Job:工作职位_1487846108320_0007以超级模式运行:false

17/02/23 12:29:34 INFO mapreduce.Job:地图0%减少0%

17/02/23 12:29:47 INFO mapreduce.Job:任务ID:attempt_1487846108320_0007_m_000001_0,状态:未通过

17/02/23 12:29:48 INFO mapreduce.Job:任务ID:attempt_1487846108320_0007_m_000000_0,状态:未通过

17/02/23 12:30:02 INFO mapreduce.Job:地图50%减少0%

17/02/23 12:30:02 INFO mapreduce.Job:任务ID:attempt_1487846108320_0007_m_000001_1,状态:未通过

17/02/23 12:30:03 INFO mapreduce.Job:地图0%减少0%

17/02/23 12:30:03 INFO mapreduce.Job:任务ID:attempt_1487846108320_0007_m_000000_1,状态:未通过

17/02/23 12:30:15 INFO mapreduce.Job:任务ID:attempt_1487846108320_0007_m_000001_2,状态:未通过

17/02/23 12:30:16 INFO mapreduce.Job:任务ID:attempt_1487846108320_0007_m_000000_2,状态:未通过

17/02/23 12:30:30 INFO mapreduce.Job:地图100%减少0%

17/02/23 12:30:31 INFO mapreduce.Job:作业job_1487846108320_0007因状态失败而失败,原因是:任务失败任务_1487846108320_0007_m_000001

任务失败,作业失败。 failedMaps:1次失败减少:0

我检查了相关datanode中的日志,发现每个失败都会重复以下行:

2017-02-23 11:36:12,901 INFO [AsyncDispatcher事件处理程序] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl:attempt_1487846108320_0001_m_000001_1 TaskAttempt从RUNNING转换为FAIL_CONTAINER_CLEANUP

2017-02-23 11:36:12,901 INFO [AsyncDispatcher事件处理程序] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl:来自attempt_1487846108320_0001_m_000001_1的诊断报告:

2017-02-23 11:36:12,902 INFO [ContainerLauncher#5] org.apache.hadoop.mapreduce.v2.app.launcher.ContainerLauncherImpl:处理事件EventType:CONTAINER_REMOTE_CLEANUP for container container_1487846108320_0001_01_000004 taskAttempt attempt_1487846108320_0001_m_000001_1

2017-02-23 11:36:12,903 INFO [ContainerLauncher#5] org.apache.hadoop.mapreduce.v2.app.launcher.ContainerLauncherImpl:KILLING attempt_1487846108320_0001_m_000001_1

2017-02-23 11:36:12,903 INFO [ContainerLauncher#5] org.apache.hadoop.yarn.client.api.impl.ContainerManagementProtocolProxy:Opening proxy:Datanode3:34121

2017-02-23 11:36:12,923 INFO [AsyncDispatcher事件处理程序] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl:attempt_1487846108320_0001_m_000001_1 TaskAttempt从FAIL_CONTAINER_CLEANUP转换为FAIL_TASK_CLEANUP

2017-02-23 11:36:12,924 INFO [CommitterEvent Processor#2] org.apache.hadoop.mapreduce.v2.app.commit.CommitterEventHandler:处理事件EventType:TASK_ABORT

2017-02-23 11:36:12,932 WARN [CommitterEvent Processor#2] org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter:无法删除hdfs://172.16.138.145:9000 / user / hdfs / random- dataSmallV7.7 / _temporary / 1 / _temporary / attempt_1487846108320_0001_m_000001_1

2017-02-23 11:36:12,932 INFO [AsyncDispatcher事件处理程序] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl:attempt_1487846108320_0001_m_000001_1 TaskAttempt从FAIL_TASK_CLEANUP转换为FAILED

在这种情况下,作业失败但有时我得到错误但作业将成功。 (很少)你知道这个FAIL_CONTAINER_CLEANUP的原因是什么吗? 或者这个问题的潜在原因是什么? 这里只使用映射器并且没有请求减速器,但在其他情况下涉及减速器时,也会发生错误。

提前感谢您的想法。

我终于解决了。 我在引用到我的节点的某些/ etc / hosts文件中有一行:127.0.1.1 Datanode1

我用我机器的FQDN替换了这一行:172.16.138.147 Datanode1

这允许hadoop找到我的服务器的引用并修复此错误。

我希望这会有助于其他人。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM