簡體   English   中英

Spark結構化流式作業未處理階段並顯示為掛起狀態

[英]Spark structured streaming job not processing stages and showing in hung state

我正在運行一個流應用程序並使用 spark 處理從 Kafka 到 Kafka 的數據。 如果我使用最新的,那么它按預期工作並且運行沒有任何問題。

但在源代碼中,我們已經完成了批量交易(200 000)並使用最早的然后處理數據。 在這種情況下,我們的 Spark 作業不會處理數據,並且在 3 個階段后會卡住。 有人可以建議我應該如何處理這個,所以我可以處理這個批量數據數據。

我正在使用以下配置:

TRIGGERFREQUENCY      1 seconds
STARTINGOFFSETS       earliest
--num-executors 6 
--driver-cores 6 
--driver-memory 8G
--executor-cores 6
 --executor-memory 8G 

我在我的 spark 應用程序中嘗試了以下配置。

--conf spark.streaming.backpressure.enabled=true
--conf spark.streaming.backpressure.initialRate=60 
--conf spark.streaming.kafka.maxRatePerPartition=50

為了控制批次中的事件數量,但它不接受這個,我很高興看到第一批中有 30000 條記錄,這是 spark 無法在單個批次中處理並卡住的。

我們只需要在 Kafka 消費者參數中添加以下屬性。

max.partition.fetch.bytes=15728640
Or
maxOffsetsPerTrigger=100000

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM