繁体   English   中英

如何使用 Airflow 处理批量新数据?

[英]How to use Airflow to process batch new data?

我们要使用Airflow来批量处理新数据,首先我们的dag运行一个命令每15分钟检查一次我们的CRM系统是否有新数据,然后将新数据处理到另外两个系统,就像这样:

task1 (检查是否有新数据)> task 2 (向system1发送新数据)> task 3 (向system2发送新数据)

问题是

  1. 新数据的数量是动态的,我们不知道我们可能会得到多少数据。
  2. 如何一一处理新数据?

我不确定您面临的问题是什么。 请更具体。 最好的办法是创建一个自定义操作符(如果没有默认操作符)。

任务1(提取新数据写入一个位置[导出为ndjson或其他格式])>任务2(检查是否有任何数据(如果位置是动态通过xcom传递))>任务3(与任务2相同(位置可能是作为 xcom 传递))

每 15 分钟触发一次运行应该获取新数据并推送

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM