[英]Spark structured streaming job stuck for hours without getting killed
我有一個結構化的流作業,它從 kafka 讀取,執行聚合並寫入 hdfs。 該作業在紗線中以集群模式運行。 我正在使用 spark2.4。 每 2-3 天,這項工作就會卡住。 它不會失敗,但會卡在一些 microbatch microbatch 上。 微批次甚至不會開始。 驅動程序會在數小時內多次打印以下日志。
Got an error when resolving hostNames. Falling back to /default-rack for all.
當我終止流作業並重新開始時,該作業再次開始正常運行。 如何解決這個問題?
請參閱此問題https://issues.apache.org/jira/browse/SPARK-28005這在 spark 3.0 中已修復。 發生這種情況似乎是因為沒有活躍的執行者。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.