Spark結構化流式作業未處理階段並顯示為掛起狀態

Question

我正在運行一個流應用程序並使用 spark 處理從 Kafka 到 Kafka 的數據。 如果我使用最新的，那么它按預期工作並且運行沒有任何問題。

但在源代碼中，我們已經完成了批量交易（200 000）並使用最早的然后處理數據。 在這種情況下，我們的 Spark 作業不會處理數據，並且在 3 個階段后會卡住。 有人可以建議我應該如何處理這個，所以我可以處理這個批量數據數據。

我正在使用以下配置：

TRIGGERFREQUENCY      1 seconds
STARTINGOFFSETS       earliest
--num-executors 6 
--driver-cores 6 
--driver-memory 8G
--executor-cores 6
 --executor-memory 8G

我在我的 spark 應用程序中嘗試了以下配置。

--conf spark.streaming.backpressure.enabled=true
--conf spark.streaming.backpressure.initialRate=60 
--conf spark.streaming.kafka.maxRatePerPartition=50

為了控制批次中的事件數量，但它不接受這個，我很高興看到第一批中有 30000 條記錄，這是 spark 無法在單個批次中處理並卡住的。

Answer 1

我們只需要在 Kafka 消費者參數中添加以下屬性。

max.partition.fetch.bytes=15728640
Or
maxOffsetsPerTrigger=100000

Spark結構化流式作業未處理階段並顯示為掛起狀態

問題描述

1 個解決方案

解決方案1
0 2022-05-18 12:34:03

Spark結構化流式作業未處理階段並顯示為掛起狀態

問題描述

1 個解決方案

解決方案1 0 2022-05-18 12:34:03

解決方案1
0 2022-05-18 12:34:03