紗線 hadoop 2.4.0：信息消息：ipc.Client 正在重試連接到服務器

Question

我已經搜索了兩天的解決方案。 但沒有任何效果。

首先，我是整個 hadoop/yarn/hdfs 主題的新手，想配置一個小型集群。

每次我運行來自 mapreduce-examples.jar 的示例時，上面的消息都不會出現 teragen 有時有效，有時無效。 在某些情況下整個工作失敗，在其他情況下工作成功完成。 有時作業會失敗，而不會打印上面的消息。

14/06/08 15:42:46 INFO ipc.Client: Retrying connect to server: FQDN-HOSTNAME/XXX.XX.XX.XXX:53022. Already tried 2 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=3, sleepTime=1000 MILLISECONDS)

此消息打印 30 次。 每次啟動作業時，端口（在代碼示例中：53022）也會更改。 如果工作成功完成，這是打印

14/06/08 15:34:20 INFO mapred.ClientServiceDelegate: Application state is completed. FinalApplicationStatus=SUCCEEDED. Redirecting to job history server
14/06/08 15:34:20 INFO mapreduce.Job: Job job_1402234146062_0002 running in uber mode : false
14/06/08 15:34:20 INFO mapreduce.Job:  map 100% reduce 100%
14/06/08 15:34:20 INFO mapreduce.Job: Job job_1402234146062_0002 completed successfully

如果失敗，則會顯示。

INFO mapreduce.Job: Job job_1402234146062_0005 failed with state FAILED due to: Task failed task_1402234146062_0005_m_000002
Job failed as tasks failed. failedMaps:1 failedReduces:0

在這種情況下，一些任務失敗了。 但在 nodemanager、datanode、resourcemanager 的日志文件中，... 找不到原因或消息。

INFO mapreduce.Job: Task Id : attempt_1402234146062_0006_m_000002_1, Status : FAILED

有關我的配置的其他信息：使用的操作系統：centOS 6.5 Java 版本：OpenJDK 運行時環境 (rhel-2.4.7.1.el6_5-x86_64 u55-b13) OpenJDK 64 位服務器 VM（構建 24.51-b03，混合模式）

紗線站點.xml

<configuration>

<!-- Site specific YARN configuration properties -->
        <property>
                <name>yarn.nodemanager.address</name>
                <value>FQDN-HOSTNAME:8050</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
        <property>
                  <name>yarn.nodemanager.localizer.address</name>
                  <value>FQDN-HOSTNAME:8040</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
                <value>org.apache.hadoop.mapred.ShuffleHandler</value>
        </property>
        <property>
                  <name>yarn.resourcemanager.resource-tracker.address</name>
                  <value>FQDN-HOSTNAME:8025</value>
        </property>
        <property>
                  <name>yarn.resourcemanager.scheduler.address</name>
                  <value>FQDN-HOSTNAME:8030</value>
        </property>
        <property>
                  <name>yarn.resourcemanager.address</name>
                  <value>FQDN-HOSTNAME:8032</value>
        </property>
</configuration>

hdfs-site.xml

    <configuration>
        <property>
                <name>dfs.replication</name>
                <value>2</value>
        </property>
        <property>
                   <name>dfs.permissions </name>
                   <value>false </value>
        </property>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:///var/data/hadoop/hdfs/nn</value>
        </property>
        <property>
                <name>fs.checkpoint.dir</name>
                <value>file:///var/data/hadoop/hdfs/snn</value>
        </property>
        <property>
                <name>fs.checkpoint.edits.dir</name>
                <value>file:///var/data/hadoop/hdfs/snn</value>
                <name>fs.checkpoint.edits.dir</name>
                <value>file:///var/data/hadoop/hdfs/snn</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:///var/data/hadoop/hdfs/dn</value>
        </property>
</configuration>

mapred-site.xml

<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <property>
                <name>mapreduce.cluster.temp.dir</name>
                <value>/mapred/tempDir</value>
        </property>
        <property>
                <name>mapreduce.cluster.local.dir</name>
                <value>/mapred/localDir</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.address</name>
                <value>FQDN-HOSTNAME:10020</value>
        </property>
</configuration>

我希望有人能幫助我。 :) 謝謝你，諾曼

Answer 1

該作業有時會成功完成，因為當您有一個reducer並將偶然發生的reduce任務發送到working節點管理器時，該任務便成功完成了。

您必須確保將FQDN-HOSTNAME完全以相同的方式寫入slaves文件中。 如果我沒有記錯的話，我的解決方案是刪除/etc/hosts名映射的條目，將其注釋如下：

#127.0.0.1    FQDN-HOSTNAME

Answer 2

另一個可行的解決方案是檢查所有節點中的防火牆。 如果要處理iptables，則可以在每個節點上運行它：

# /etc/init.d/iptables save
# /etc/init.d/iptables stop

這將停止防火牆，直到下一次重新啟動為止，但是它足以測試群集。 您不必重新啟動yarn或其他任何東西，只需再次運行作業即可。

如果要完全停止固件：

# chkconfig iptables off

Answer 3

哇！ 這些答案是真的嗎？ 在工作明顯完成時談論FQDN ...只要禁用防火牆？ 而且OP甚至還提供了詳細的日志消息/配置。

來吧大家-RTFQ。 問題是未遵守yarn.app.mapreduce.am.job.client.port-range。 我也遇到了。

關閉防火牆...一切都很好（我可以看到yarn工作中的臨時端口）。

防火牆始終打開（最終）。

霍頓在其他董事會上完全忽略了這個問題。

因此，這是一個作業的日志輸出，演示了該問題。 在第一種情況下，我基於Horton的文檔（以及通過仔細查看安裝發現的其他端口）在客戶端上啟用了防火牆。 您將看到該過程超時...然后突然工作。 因為我在查看作業輸出后禁用了防火牆:)

 2015-01-15 16:48:22,943 INFO [main] org.apache.hadoop.ipc.Client: Retrying connect to server: de-luster-l2723nraqsy5-ywhniidze3lb-qfk4asn77vc5/10.0.0.41:52015. Already tried 39 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=50, sleepTime=1000 MILLISECONDS) 2015-01-15 16:48:23,349 INFO [main] org.apache.hadoop.mapred.YarnChild: mapreduce.cluster.local.dir for child: /hadoop/yarn/local/usercache/l.admin/appcache/application_1420482341308_0020 2015-01-15 16:48:24,122 INFO [main] org.apache.hadoop.conf.Configuration.deprecation: session.id is deprecated. Instead, use dfs.metrics.session-id 2015-01-15 16:48:24,656 INFO [main] org.apache.hadoop.mapred.Task: Using ResourceCalculatorProcessTree : [ ] 2015-01-15 16:48:24,724 INFO [main] org.apache.hadoop.mapred.ReduceTask: Using ShuffleConsumerPlugin: org.apache.hadoop.mapreduce.task.reduce.Shuffle@7f94ee59 2015-01-15 16:48:24,792 INFO [main] org.apache.hadoop.mapreduce.task.reduce.MergeManagerImpl: MergerManager: memoryLimit=534354336, maxSingleShuffleLimit=133588584, mergeThreshold=352673888, ioSortFactor=100, memToMemMergeOutputsThreshold=100

你看到了嗎？ 超時問題...然后突然開始隨機播放。 畢竟與FQDN無關：)

但我會找到解決方案並回發。

Answer 4

絕對是一個錯誤，這篇文章提供了更清楚的了解正在發生的事情。 https://groups.google.com/a/cloudera.org/forum/#!msg/cdh-user/P1rfMQmYVWk/eARZXHUTkW0J

我們正計划通過減小臨時端口范圍來解決此問題，從而限制要捕獲的端口，然后配置iptables以允許該端口范圍。 此處說明了設置端口范圍的方法-http: //www.ncftp.com/ncftpd/doc/misc/ephemeral_ports.html

Answer 5

這是MR AppMaster如何使用臨時端口啟動的錯誤。 它也存在於Hadoop 2.6.0發行版中。
我已經找到了對該錯誤的修復，並在MAPREDUCE項目上創建了JIRA以及有關如何修復它的評論。

https://issues.apache.org/jira/browse/MAPREDUCE-6338

Answer 6

如果您看到類似這樣的消息

INFO ipc.Client: Retrying connect to server: <hostname>/<ip>:<port>. Already tried 1 time(s); maxRetries=3

需要檢查：

檢查客戶端和節點管理器之間的防火牆
默認情況下檢查 yarn.app.mapreduce.am.job.client.port-range 他的范圍是所有可能的端口

紗線 hadoop 2.4.0：信息消息：ipc.Client 正在重試連接到服務器

問題描述

6 個解決方案

解決方案1
1 2014-10-13 21:13:32

解決方案2
0 2015-01-09 13:09:39

解決方案3
0 2015-01-19 16:18:03

解決方案4
0 2015-01-21 16:22:29

解決方案5
0 2015-04-26 03:24:29

解決方案6
0 2021-07-14 09:10:28

紗線 hadoop 2.4.0：信息消息：ipc.Client 正在重試連接到服務器

問題描述

6 個解決方案

解決方案1 1 2014-10-13 21:13:32

解決方案2 0 2015-01-09 13:09:39

解決方案3 0 2015-01-19 16:18:03

解決方案4 0 2015-01-21 16:22:29

解決方案5 0 2015-04-26 03:24:29

解決方案6 0 2021-07-14 09:10:28

解決方案1
1 2014-10-13 21:13:32

解決方案2
0 2015-01-09 13:09:39

解決方案3
0 2015-01-19 16:18:03

解決方案4
0 2015-01-21 16:22:29

解決方案5
0 2015-04-26 03:24:29

解決方案6
0 2021-07-14 09:10:28