看起来这应该是 GithubOperator 的一个相当标准的用例,所以我一定遗漏了一些明显的东西。 这当然不难做到! 高级任务:使用 Airflow,在某个任意 Github 存储库上编排某个任意文件内容的更新。 尝试实施:Github API 需要现有文件的 SHA hash 才能更新它。 我 ...
看起来这应该是 GithubOperator 的一个相当标准的用例,所以我一定遗漏了一些明显的东西。 这当然不难做到! 高级任务:使用 Airflow,在某个任意 Github 存储库上编排某个任意文件内容的更新。 尝试实施:Github API 需要现有文件的 SHA hash 才能更新它。 我 ...
定义 DAG 我在 Airflow FileNotFoundError: [Errno 2] No such file or directory 中收到如下错误: ...
我在我的项目中遇到了一些问题:我在模块中使用 SQLalchemy 2.0.2 来处理数据库,但是我尝试使用 Apache Airflow 2.6.1,它具有 sqlalchemy 1.4.48 依赖项。 在我运行代码后,解释器要么无法正确使用数据库函数(如果安装了 sqlalchemy 1.4. ...
想访问API调用中数据传入的config 想在 PostgresOperator 的 sqlquery 中访问 seller_id 上述任务不返回任何数据。 但是当我将参数硬编码为 有用。 还尝试使用 sql 文件和参数,但没有效果。 这种方法也行不通。 它将 {{ dag_run.conf["se ...
我们有一些执行各种数据处理的 DAG。 我们预计随着这个系统的发展,会有更多来自不同内部团队的 DAG,其中一些可能依赖于其他团队的 DAG 和数据。 我们正在考虑使用一个“主调度程序”DAG 来协调所有这些使用 TriggerDagRunOperators 的 DAG 间依赖关系,如下所示:da ...
我有四个文件main.py 、 jobs.zip 、 libs.zip和params.yaml ,这些我存储在 Azure 存储帐户容器中。 现在我有了这段代码,它正在制作一个有效负载,并将尝试使用该有效负载运行一个 spark 作业。 该有效负载将具有这 4 个文件的位置链接。 我已经检查了正确 ...
我正在将我们的自我管理 Airflow 环境迁移到 Cloud Composer 2,并且想知道如何将 DAG 运行历史记录从外部环境迁移到新的 Cloud Composer 环境。 有没有人这样做过? 有文档吗? ...
我按照文档创建了 slack function: 它确实有效,我在频道中收到通知,但获取任务名称和日志链接是到另一个任务,而不是失败的任务。 它获取上游失败任务的上下文,但不是失败任务本身: 我尝试了不同的运算符和挂钩,但得到了相同的结果。 如果有人可以提供帮助,我将不胜感激。 谢谢你! ...
我有一个 Dockerfile 扩展了Apache Airflow 2.5.1基本图像。 我想要做的是能够在我的airflow容器(即 docker-in-docker)中使用docker进行测试和评估。 我的docker-compose.yaml具有以下安装:volumes: - /var/r ...
我是 Airflow 的新手。我正在考虑构建多个 airflow 调度程序(celeryexecutor)。 但是,我很好奇多个调度程序的操作多个调度程序如何为元数据库中的序列化 dag 进行调度? 他们有什么规定吗? 谁违反了哪些规则? 是否有多个调度程序的负载平衡? 如果您回答这些问题,将会非常 ...
我尝试在 Airflow Dag 中运行 DockerOperator,但出现错误 PermissionError: [Errno 13] Permission denied。 docker-compose.yml如下: 我还有包含以下内容的 .env 文件: 这是 dag 任务: 我已经尝试了 ...
我的 dag 以配置 JSON 启动:{"foo" : "bar"} 我有一个使用此值的 Python 运算符: 我想用 TaskFlow 任务替换它……@task def my_task: # how to get foo?? 我怎样才能获得对上下文、dag_run 的引用,或以其他方式从 ...
我有一个配置文件 dev.cfg,它看起来像这样: 我的代码中需要这个来做 S3 的事情。 我无权(也不会获得)修改 AWS 控制台中的环境或配置变量。 我将文件放入 S3 的唯一方法是 CLI ( aws s3 cp... )。 这是 S3 中的项目目录结构: 在 plugins.zip 文件中 ...
我打算使用 AWS Python SDK (Boto3) 将文件从一个存储桶复制到另一个存储桶。 下面是我从 AWS 文档中获得的相同代码: 我的问题是如何触发此代码以及我应该在哪里部署此代码? 我最初想到的是 Lambda function,但我正在寻找替代选项,以防 Lambda 因较大文件(1 ...
我是airflow的初学者,关于本地airflow的错误google了很多都没有找到答案。。我以前打开本地airflow没有问题。 但是突然间,当我运行 docker 时,airflow-init-1 容器坏了。 每当我尝试运行 docker 时,它都会变为“已退出”。 但是其他容器没有坏。 这是错 ...
使用 GCSToBigQueryOperator 发生此错误 当我尝试更改为 BigQueryCreateExternalTableOperator 时,会发生其他错误 在此先感谢您的帮助... 我曾尝试更改谷歌查询运算符,甚至尝试使用不同的方法将数据上传到 bigquery,但说模式不存在,请帮助 ...
我正在尝试使用基本 ETL 的 Airflow,我将 .py 放在 dags 文件夹中并打开我的 docker 作曲家,查看 Airflow 中的日志,它说“FileNotFoundError:[Errno 2] 没有这样的文件或目录:'数据.csv'”。 ETLwithDBAirflow.py ...
我在 AWS Managed Apache Airflow 上运行 DAG,它应该在机器上下载数据,将其移动到 S3,然后删除本地文件。 但是,在运行期间我收到OSError: [Errno 28] No space left on device ,导致 DAG 失败。 该操作导致机器磁盘空间不足, ...
我有一个在本地服务器上运行的 Apache Airflow DAG。 在 DAG 中,我想调用 Google Cloud CLI 命令gsutil将数据文件复制到 GCP 存储桶中。 为此,我必须先调用gcloud auth activate-service-account ,然后gscutil c ...
所以,我在 DAG 中有几个任务。 假设我在第一个任务中计算了一个值并将其分配给一个变量。 我希望能够在后续任务中使用该变量。 我怎样才能做到这一点? 在 python 程序中,我可以将 function 中的变量状态提升为全局,以便我可以在其他函数中使用该变量。 我怎样才能用 Airflow 实 ...