繁体   English   中英

从树莓派 CSV 文件到 Bigquery 表的数据流

[英]Data streaming from raspberry pi CSV file to Bigquerry table

我有一些由树莓派生成的 CSV 文件需要推送到 bigquery 表中。 目前,我们有一个 python 脚本,使用bigquery.LoadJobConfig进行批量上传,我手动运行它。 目标是以简单的方式获得流数据(或每 15 分钟)。

我探索了不同的解决方案:

  1. 使用 airflow 运行 python 脚本(高复杂度和维护)
  2. 数据流(我不熟悉它,但如果它能完成工作,我会使用它)
  3. 通过 GitLab CI 运行脚本的调度管道(cron 语法: */15 * * * * )

您能否帮助我并向我建议将 CSV 文件实时或每 15 分钟推送到 bigquery 表中的最佳方法?

好消息,您有很多选择,也许最简单的方法是自动化您当前拥有的 python 脚本。 因为它可以满足您的需求,假设您在本地机器上手动运行它,您可以将其上传到 Google Cloud 上的轻量级虚拟机,在虚拟机上使用 CRON 来自动运行它。 我过去使用过这种方法,效果很好。

另一种选择是将您的 Python 代码部署到 Google Cloud Function,这是一种让 GCP 运行代码而无需担心维护后端资源的方法。

在此处了解有关云功能的更多信息: https://cloud.google.com/functions

第三个选项,取决于您的 .csv 文件的生成位置,也许您可以使用 BigQuery 数据传输服务来处理 BigQuery 的导入。

更多信息: https://cloud.google.com/bigquery/docs/dts-introduction

祝你好运!

添加到@Ben 的答案中,您还可以实施 Cloud Composer 来编排此工作流程。 It is built on Apache Airflow and you can use Airflow-native tools, such as the powerful Airflow web interface and command-line tools, Airflow scheduler etc without worrying about your infrastructure and maintenance.

您可以实施 DAG 以

更多关于云作曲家

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM