簡體   English   中英

ETL呈現數據而沒有調度間隔延遲,同時不中斷追趕

[英]ETL present data without the schedule interval delay while not breaking the Catchup

我有一個DAG,它需要在每個星期二和星期五觸發(就上下文而言,DAG的目的基本上是每周僅在星期二和星期五發布兩次的ETL數據)

這個DAG需要趕上過去。

我在許多運算子參數中使用了{{execution_date}}(對於API調用參數,在存儲名稱中用於保留原始數據的副本,...)

趕超效果很好,我的問題是現在。

由於計划間隔,每個星期五將ETL上一個星期二的數據(使用execute_date作為API調用參數),每個星期二將ETL前面一個星期五的數據。

我需要的是星期二的運行獲取本星期二而不是上一個星期五的數據。

我考慮使用start_date而不是execute_date進行API調用,但是在這種情況下,Catchup將無法按預期工作。

我沒有找到任何很好的解決方案,在這些解決方案中,Catchup可以很好地工作,並且可以處理當前數據而不會延遲計划間隔...

任何想法 ?

編輯基於andscoop答案:

最好的解決方案是使用next_execution_date而不是execution_date

追趕不會阻止最新的DAG運行。 它僅確定先前未運行的DAG是否將運行到“追趕”狀態。

暫時沒有延遲,您看到的是報告的執行日期僅顯示最后完成的計划間隔。

您將需要研究Airflow 以模板化所需的確切時間戳。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM