[英]Spark structured streaming job not processing stages and showing in hung state
我正在運行一個流應用程序並使用 spark 處理從 Kafka 到 Kafka 的數據。 如果我使用最新的,那么它按預期工作並且運行沒有任何問題。
但在源代碼中,我們已經完成了批量交易(200 000)並使用最早的然后處理數據。 在這種情況下,我們的 Spark 作業不會處理數據,並且在 3 個階段后會卡住。 有人可以建議我應該如何處理這個,所以我可以處理這個批量數據數據。
我正在使用以下配置:
TRIGGERFREQUENCY 1 seconds
STARTINGOFFSETS earliest
--num-executors 6
--driver-cores 6
--driver-memory 8G
--executor-cores 6
--executor-memory 8G
我在我的 spark 應用程序中嘗試了以下配置。
--conf spark.streaming.backpressure.enabled=true
--conf spark.streaming.backpressure.initialRate=60
--conf spark.streaming.kafka.maxRatePerPartition=50
為了控制批次中的事件數量,但它不接受這個,我很高興看到第一批中有 30000 條記錄,這是 spark 無法在單個批次中處理並卡住的。
我們只需要在 Kafka 消費者參數中添加以下屬性。
max.partition.fetch.bytes=15728640
Or
maxOffsetsPerTrigger=100000
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.