繁体   English   中英

如何通过apache气流处理Google存储中的数据?

[英]How can I process data in Google storage via apache airflow?

我在Google云端存储中有一个CSV文件。 我正在使用Google Cloud Composer来运行Apache Airflow。 我想在CSV文件上运行一些bash脚本,然后将其存储回Google Cloud Storage? 我尝试搜索各种运算符,但找不到任何可处理google存储中文件的运算符。 有什么办法可以做到这一点?

提前致谢。

这是一个例子:

bash_operator.BashOperator(
    task_id="process_csv",
    bash_command="gsutil cp gs://your_bucket/your_file.csv your_file.csv && "
                 "process_file your_file.csv > processed_file.csv && "
                 "gsutil cp processed_file.csv gs://your_bucket/processed_file.csv",
    execution_timeout=timedelta(hours=1),
    dag=dag
)

您可以在此存储库中找到更多示例https://github.com/blockchain-etl/bitcoin-etl-airflow/blob/develop/dags/bitcoinetl/build_export_dag.py

您也可以使用PythonOperator代替BashOperator。 一些示例可以在这里找到https://github.com/blockchain-etl/ethereum-etl-airflow/blob/master/dags/export_dag.py

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM