簡體   English   中英

Spark Worker節點超時

[英]Spark worker nodes timeout

當我使用sbt run運行我的Spark應用程序時,其配置指向遠程集群的主服務器,但工作程序沒有執行任何有用的操作,並且在sbt run日志中反復打印以下警告。

WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources

這是我的spark配置的樣子:

@transient lazy val conf: SparkConf = new SparkConf()
    .setMaster("spark://master-ip:7077")
    .setAppName("HelloWorld")
    .set("spark.executor.memory", "1g")
    .set("spark.driver.memory", "12g")

@transient lazy val sc: SparkContext = new SparkContext(conf)

val lines   = sc.textFile("hdfs://master-public-dns:9000/test/1000.csv")

我知道當群集配置錯誤並且工作人員沒有資源或沒有首先啟動時,通常會出現此警告。 但是,根據我的Spark UI(在master-ip:8080上),工作節點似乎還活着,具有足夠的RAM和cpu內核,它們甚至嘗試執行我的應用程序,但它們退出並將其保留在stderr日志中:

INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; 
users  with view permissions: Set(ubuntu, myuser); 
groups with view permissions: Set(); users  with modify permissions: Set(ubuntu, myuser); groups with modify permissions: Set()

Exception in thread "main" java.lang.reflect.UndeclaredThrowableException
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1713)
...
Caused by: java.util.concurrent.TimeoutException: Cannot receive any reply from 192.168.0.11:35996 in 120 seconds
... 8 more
ERROR RpcOutboxMessage: Ask timeout before connecting successfully

有任何想法嗎?

在120秒內無法收到來自192.168.0.11:35996的任何回復

您能否從worker遠程登錄到此ip上的此端口,也許您的驅動程序計算機具有多個網絡接口,請嘗試在$ SPARK_HOME / conf / spark-env.sh中設置SPARK_LOCAL_IP

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM