[英]Spark 3 structured streaming use maxOffsetsPerTrigger in Kafka source with Trigger.Once
[英]Trigger.Once Spark Structured Streaming with KAFKA offsets and writing to KAFKA continues
將 Spark Structured Streaming 與Trigger.Once
結合使用並處理 KAFKA 輸入時
然后如果運行Trigger.Once
調用
並且同時寫入 KAFKA
Trigger.Once
調用是否會看到在當前調用期間寫入的那些較新的 KAFKA 記錄?Trigger.Once
時才會看到它們?從手冊中:它處理所有。 見下文。
配置增量批處理 Apache Spark 提供了 .trigger(once=True) 選項來將源目錄中的所有新數據作為單個微批處理。 此觸發一次模式忽略所有設置以控制流輸入大小,這可能導致大量溢出或內存不足錯誤。
Databricks 在 Databricks Runtime 10.2 及更高版本中支持 trigger(availableNow=True) 用於 Delta Lake 和 Auto Loader 源。 此功能將一次性觸發的批處理方法與配置批大小的能力相結合,從而產生多個並行批,從而更好地控制正確調整批大小和生成的文件。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.