Spark 結構化流媒體作業卡住了幾個小時而沒有被殺死

Question

我有一個結構化的流作業，它從 kafka 讀取，執行聚合並寫入 hdfs。 該作業在紗線中以集群模式運行。 我正在使用 spark2.4。 每 2-3 天，這項工作就會卡住。 它不會失敗，但會卡在一些 microbatch microbatch 上。 微批次甚至不會開始。 驅動程序會在數小時內多次打印以下日志。

 Got an error when resolving hostNames. Falling back to /default-rack for all.

當我終止流作業並重新開始時，該作業再次開始正常運行。 如何解決這個問題？

Answer 1

請參閱此問題https://issues.apache.org/jira/browse/SPARK-28005這在 spark 3.0 中已修復。 發生這種情況似乎是因為沒有活躍的執行者。

Spark 結構化流媒體作業卡住了幾個小時而沒有被殺死

問題描述

1 個解決方案

解決方案1
0 2020-10-03 10:26:56

Spark 結構化流媒體作業卡住了幾個小時而沒有被殺死

問題描述

1 個解決方案

解決方案1 0 2020-10-03 10:26:56

解決方案1
0 2020-10-03 10:26:56