簡體 English 中英

如何使用 Trigger.Once 選項在 Spark 3 Structure Stream Kafka/Files 源中配置背壓

[英]How to configure backpreasure in Spark 3 Structure Stream Kafka/Files source with Trigger.Once option

原文 2021-03-24 08:09:46 3 1 apache-spark/ spark-structured-streaming/ spark-kafka-integration

在 Spark 3 Behave of backpressure option on Kafka 和 File Source for trigger.once 場景發生了變化。

但我有一個問題。 當我想使用 TriggerOnce 時，如何為我的工作配置背壓？

在 spark 2.4 中，我有一個用例，回填一些數據，然后啟動 stream。 所以我使用了一次觸發器，但我的回填場景可能非常大，有時會因為洗牌和驅動 memory 而在我的磁盤上造成太大的負載，因為 FileIndex 緩存在那里。 所以我使用 max maxOffsetsPerTrigger和maxFilesPerTrigger來控制我的 spark 可以處理多少數據。 這就是我配置背壓的方式。

現在您刪除了此功能，因此假設有人可以向 go 提出一種新方法？

1 個解決方案

Trigger.Once現在會忽略這些選項（在 Spark 3 中），因此它總是會在第一次加載時讀取所有內容。

您可以解決這個問題 - 例如，您可以啟動 stream 並將觸發器設置為周期性，例如 1 小時，並且不執行.awaitTermination ，但有一個並行循環將檢查第一批是否完成，然后停止stream。 或者您可以將其設置為連續模式，然后檢查批次是否為 0 行，然后終止 stream。 在初始加載之后，您可以將 stream 切換回 Trigger.Once

Spark 3 結構化流在 Kafka 源代碼中使用 maxOffsetsPerTrigger 和 Trigger.Once

[英]Spark 3 structured streaming use maxOffsetsPerTrigger in Kafka source with Trigger.Once

Trigger.Once Spark Structured Streaming with KAFKA offsets 和寫入 KAFKA 繼續

[英]Trigger.Once Spark Structured Streaming with KAFKA offsets and writing to KAFKA continues

將 Spark 結構化流與 Trigger.Once 結合使用

[英]Using Spark Structured Streaming with Trigger.Once

Spark Structured Streaming 在帶有 Trigger.Once 的 Databricks 上顯示沒有 output

[英]Spark Structured Streaming shows no output on Databricks with Trigger.Once

需要trigger.Once（）元數據

[英]trigger.Once() metadata needed

Spark + Kafka：如何使用 RDBMS 加入 kafka 流

[英]Spark + Kafka: How to join kafka stream with RDBMS

來自一個 Kafka 主題源的並發 Spark stream 作業

[英]Concurrent Spark stream job from one Kafka topic source

如何將Spark和Kafka集成到直接流中

[英]How to integrate Spark and Kafka for direct stream

如何使用“一次觸發”觸發器控制 Spark Structured Streaming 中每個觸發器處理的文件數量？

[英]How can I control the amount of files being processed for each trigger in Spark Structured Streaming using the “Trigger once” trigger?

Spark Streaming Kafka流

[英]Spark Streaming Kafka stream

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Spark 3 結構化流在 Kafka 源代碼中使用 maxOffsetsPerTrigger 和 Trigger.Once Trigger.Once Spark Structured Streaming with KAFKA offsets 和寫入 KAFKA 繼續將 Spark 結構化流與 Trigger.Once 結合使用 Spark Structured Streaming 在帶有 Trigger.Once 的 Databricks 上顯示沒有 output 需要trigger.Once（）元數據 Spark + Kafka：如何使用 RDBMS 加入 kafka 流來自一個 Kafka 主題源的並發 Spark stream 作業如何將Spark和Kafka集成到直接流中如何使用“一次觸發”觸發器控制 Spark Structured Streaming 中每個觸發器處理的文件數量？ Spark Streaming Kafka流

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM