簡體   English   中英

紗線 hadoop 2.4.0:信息消息:ipc.Client 正在重試連接到服務器

[英]yarn hadoop 2.4.0: info message: ipc.Client Retrying connect to server

我已經搜索了兩天的解決方案。 但沒有任何效果。

首先,我是整個 hadoop/yarn/hdfs 主題的新手,想配置一個小型集群。

每次我運行來自 mapreduce-examples.jar 的示例時,上面的消息都不會出現 teragen 有時有效,有時無效。 在某些情況下整個工作失敗,在其他情況下工作成功完成。 有時作業會失敗,而不會打印上面的消息。

14/06/08 15:42:46 INFO ipc.Client: Retrying connect to server: FQDN-HOSTNAME/XXX.XX.XX.XXX:53022. Already tried 2 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=3, sleepTime=1000 MILLISECONDS)

此消息打印 30 次。 每次啟動作業時,端口(在代碼示例中:53022)也會更改。 如果工作成功完成,這是打印

14/06/08 15:34:20 INFO mapred.ClientServiceDelegate: Application state is completed. FinalApplicationStatus=SUCCEEDED. Redirecting to job history server
14/06/08 15:34:20 INFO mapreduce.Job: Job job_1402234146062_0002 running in uber mode : false
14/06/08 15:34:20 INFO mapreduce.Job:  map 100% reduce 100%
14/06/08 15:34:20 INFO mapreduce.Job: Job job_1402234146062_0002 completed successfully

如果失敗,則會顯示。

INFO mapreduce.Job: Job job_1402234146062_0005 failed with state FAILED due to: Task failed task_1402234146062_0005_m_000002
Job failed as tasks failed. failedMaps:1 failedReduces:0

在這種情況下,一些任務失敗了。 但在 nodemanager、datanode、resourcemanager 的日志文件中,... 找不到原因或消息。

INFO mapreduce.Job: Task Id : attempt_1402234146062_0006_m_000002_1, Status : FAILED

有關我的配置的其他信息:使用的操作系統:centOS 6.5 Java 版本:OpenJDK 運行時環境 (rhel-2.4.7.1.el6_5-x86_64 u55-b13) OpenJDK 64 位服務器 VM(構建 24.51-b03,混合模式)

紗線站點.xml

<configuration>

<!-- Site specific YARN configuration properties -->
        <property>
                <name>yarn.nodemanager.address</name>
                <value>FQDN-HOSTNAME:8050</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
        <property>
                  <name>yarn.nodemanager.localizer.address</name>
                  <value>FQDN-HOSTNAME:8040</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
                <value>org.apache.hadoop.mapred.ShuffleHandler</value>
        </property>
        <property>
                  <name>yarn.resourcemanager.resource-tracker.address</name>
                  <value>FQDN-HOSTNAME:8025</value>
        </property>
        <property>
                  <name>yarn.resourcemanager.scheduler.address</name>
                  <value>FQDN-HOSTNAME:8030</value>
        </property>
        <property>
                  <name>yarn.resourcemanager.address</name>
                  <value>FQDN-HOSTNAME:8032</value>
        </property>
</configuration>

hdfs-site.xml

    <configuration>
        <property>
                <name>dfs.replication</name>
                <value>2</value>
        </property>
        <property>
                   <name>dfs.permissions </name>
                   <value>false </value>
        </property>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:///var/data/hadoop/hdfs/nn</value>
        </property>
        <property>
                <name>fs.checkpoint.dir</name>
                <value>file:///var/data/hadoop/hdfs/snn</value>
        </property>
        <property>
                <name>fs.checkpoint.edits.dir</name>
                <value>file:///var/data/hadoop/hdfs/snn</value>
                <name>fs.checkpoint.edits.dir</name>
                <value>file:///var/data/hadoop/hdfs/snn</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:///var/data/hadoop/hdfs/dn</value>
        </property>
</configuration>

mapred-site.xml

<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <property>
                <name>mapreduce.cluster.temp.dir</name>
                <value>/mapred/tempDir</value>
        </property>
        <property>
                <name>mapreduce.cluster.local.dir</name>
                <value>/mapred/localDir</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.address</name>
                <value>FQDN-HOSTNAME:10020</value>
        </property>
</configuration>

我希望有人能幫助我。 :) 謝謝你,諾曼

該作業有時會成功完成,因為當您有一個reducer並將偶然發生的reduce任務發送到working節點管理器時,該任務便成功完成了。

您必須確保將FQDN-HOSTNAME完全以相同的方式寫入slaves文件中。 如果我沒有記錯的話,我的解決方案是刪除/etc/hosts名映射的條目,將其注釋如下:

#127.0.0.1    FQDN-HOSTNAME

另一個可行的解決方案是檢查所有節點中的防火牆。 如果要處理iptables,則可以在每個節點上運行它:

# /etc/init.d/iptables save
# /etc/init.d/iptables stop

這將停止防火牆,直到下一次重新啟動為止,但是它足以測試群集。 您不必重新啟動yarn或其他任何東西,只需再次運行作業即可。

如果要完全停止固件:

# chkconfig iptables off

哇! 這些答案是真的嗎? 在工作明顯完成時談論FQDN ...只要禁用防火牆? 而且OP甚至還提供了詳細的日志消息/配置。

來吧大家-RTFQ。 問題是未遵守yarn.app.mapreduce.am.job.client.port-range。 我也遇到了。

關閉防火牆...一切都很好(我可以看到yarn工作中的臨時端口)。

防火牆始終打開(最終)。

霍頓在其他董事會上完全忽略了這個問題。

因此,這是一個作業的日志輸出,演示了該問題。 在第一種情況下,我基於Horton的文檔(以及通過仔細查看安裝發現的其他端口)在客戶端上啟用了防火牆。 您將看到該過程超時...然后突然工作。 因為我在查看作業輸出后禁用了防火牆:)

 2015-01-15 16:48:22,943 INFO [main] org.apache.hadoop.ipc.Client: Retrying connect to server: de-luster-l2723nraqsy5-ywhniidze3lb-qfk4asn77vc5/10.0.0.41:52015. Already tried 39 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=50, sleepTime=1000 MILLISECONDS) 2015-01-15 16:48:23,349 INFO [main] org.apache.hadoop.mapred.YarnChild: mapreduce.cluster.local.dir for child: /hadoop/yarn/local/usercache/l.admin/appcache/application_1420482341308_0020 2015-01-15 16:48:24,122 INFO [main] org.apache.hadoop.conf.Configuration.deprecation: session.id is deprecated. Instead, use dfs.metrics.session-id 2015-01-15 16:48:24,656 INFO [main] org.apache.hadoop.mapred.Task: Using ResourceCalculatorProcessTree : [ ] 2015-01-15 16:48:24,724 INFO [main] org.apache.hadoop.mapred.ReduceTask: Using ShuffleConsumerPlugin: org.apache.hadoop.mapreduce.task.reduce.Shuffle@7f94ee59 2015-01-15 16:48:24,792 INFO [main] org.apache.hadoop.mapreduce.task.reduce.MergeManagerImpl: MergerManager: memoryLimit=534354336, maxSingleShuffleLimit=133588584, mergeThreshold=352673888, ioSortFactor=100, memToMemMergeOutputsThreshold=100 

你看到了嗎? 超時問題...然后突然開始隨機播放。 畢竟與FQDN無關:)

但我會找到解決方案並回發。

絕對是一個錯誤,這篇文章提供了更清楚的了解正在發生的事情。 https://groups.google.com/a/cloudera.org/forum/#!msg/cdh-user/P1rfMQmYVWk/eARZXHUTkW0J

我們正計划通過減小臨時端口范圍來解決此問題,從而限制要捕獲的端口,然后配置iptables以允許該端口范圍。 此處說明了設置端口范圍的方法-http: //www.ncftp.com/ncftpd/doc/misc/ephemeral_ports.html

這是MR AppMaster如何使用臨時端口啟動的錯誤。 它也存在於Hadoop 2.6.0發行版中。
我已經找到了對該錯誤的修復,並在MAPREDUCE項目上創建了JIRA以及有關如何修復它的評論。

https://issues.apache.org/jira/browse/MAPREDUCE-6338

如果您看到類似這樣的消息

INFO ipc.Client: Retrying connect to server: <hostname>/<ip>:<port>. Already tried 1 time(s); maxRetries=3

需要檢查:

  • 檢查客戶端和節點管理器之間的防火牆
  • 默認情況下檢查 yarn.app.mapreduce.am.job.client.port-range 他的范圍是所有可能的端口

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM