簡體   English   中英

向emr提交本地Spark工作

[英]submit local spark job to emr

我按照亞馬遜文檔向Spark集群提交Spark作業https://aws.amazon.com/premiumsupport/knowledge-center/emr-submit-spark-job-remote-cluster/

在按照說明進行操作之后,由於無法解決的地址(帶有類似的消息)而導致故障排除失敗。

錯誤spark.SparkContext:初始化SparkContext時出錯。 java.lang.IllegalArgumentException:java.net.UnknownHostException:ip-172-32-1-231.us-east-2.compute.internal在org.apache.hadoop.security.SecurityUtil.buildTokenService(SecurityUtil.java:374)在org.apache.hadoop.hdfs.NameNodeProxies.createNonHAProxy(NameNodeProxies.java:310)在org.apache.hadoop.hdfs.NameNodeProxies.createProxy(NameNodeProxies.java:176)

當我看到它要解析的IP是主節點時,我將sed更改為配置文件(從主節點中的/ etc / hadoop / conf目錄獲得的)中的公共IP。 但是錯誤是連接到數據節點

信息hdfs.DFSClient:createBlockOutputStream org.apache.hadoop.net.ConnectTimeoutException中的異常:等待通道准備好進行連接時60000毫秒超時。 ch:位於org.apache.hadoop.hdfs的org.apache.hadoop.net.NetUtils.connect(NetUtils.java:533)上的java.nio.channels.SocketChannel [connection-pending remote = / 172.32.1.41:50010]。 org.apache.hadoop.hdfs.DFSOutputStream $ DataStreamer.createBlockOutputStream(DFSOutputStream.java:1404)的DFSOutputStream.createSocketForPipeline(DFSOutputStream.java:1606)在org.apache.hadoop.hdfs.DFSOutputStream $ DataStreamer.nextBlockOutputStream(DFS 1357)at org.apache.hadoop.hdfs.DFSOutputStream $ DataStreamer.run(DFSOutputStream.java:587)19/02/08 13:54:58 INFO hdfs.DFSClient:放棄BP-1960505320-172.32.1.231-1549632479324:blk_1073741907_1086

最后我在上傳資源文件時嘗試了與這個問題相同的解決方案= createBlockOutputStream中的Spark HDFS異常

將以下內容添加到hdfs-site.xml文件中:

<property>
  <name>dfs.client.use.datanode.hostname</name>
  <value>true</value>
</property>   

但是錯誤仍然存​​在,因為未解決的地址異常

19/02/08 13:58:06 WARN hdfs.DFSClient: DataStreamer Exception
java.nio.channels.UnresolvedAddressException
    at sun.nio.ch.Net.checkAddress(Net.java:101)
    at sun.nio.ch.SocketChannelImpl.connect(SocketChannelImpl.java:622)
    at org.apache.hadoop.net.SocketIOWithTimeout.connect(SocketIOWithTimeout.java:192)
    at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:530)
    at org.apache.hadoop.hdfs.DFSOutputStream.createSocketForPipeline(DFSOutputStream.java:1606)
at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.createBlockOutputStream(DFSOutputStream.java:1404)
at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.nextBlockOutputStream(DFSOutputStream.java:1357)
at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.run(DFSOutputStream.java:587)

有人可以幫助我在本地計算機上設置Spark以便將火花提交給遠程EMR嗎?

除了按照鏈接的問題給出答案外,還應將工作節點的(公用)IP和(專用)DNS添加到您的/ etc / hosts文件中。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM