簡體   English   中英

從樹莓派 CSV 文件到 Bigquery 表的數據流

[英]Data streaming from raspberry pi CSV file to Bigquerry table

我有一些由樹莓派生成的 CSV 文件需要推送到 bigquery 表中。 目前,我們有一個 python 腳本,使用bigquery.LoadJobConfig進行批量上傳,我手動運行它。 目標是以簡單的方式獲得流數據(或每 15 分鍾)。

我探索了不同的解決方案:

  1. 使用 airflow 運行 python 腳本(高復雜度和維護)
  2. 數據流(我不熟悉它,但如果它能完成工作,我會使用它)
  3. 通過 GitLab CI 運行腳本的調度管道(cron 語法: */15 * * * * )

您能否幫助我並向我建議將 CSV 文件實時或每 15 分鍾推送到 bigquery 表中的最佳方法?

好消息,您有很多選擇,也許最簡單的方法是自動化您當前擁有的 python 腳本。 因為它可以滿足您的需求,假設您在本地機器上手動運行它,您可以將其上傳到 Google Cloud 上的輕量級虛擬機,在虛擬機上使用 CRON 來自動運行它。 我過去使用過這種方法,效果很好。

另一種選擇是將您的 Python 代碼部署到 Google Cloud Function,這是一種讓 GCP 運行代碼而無需擔心維護后端資源的方法。

在此處了解有關雲功能的更多信息: https://cloud.google.com/functions

第三個選項,取決於您的 .csv 文件的生成位置,也許您可以使用 BigQuery 數據傳輸服務來處理 BigQuery 的導入。

更多信息: https://cloud.google.com/bigquery/docs/dts-introduction

祝你好運!

添加到@Ben 的答案中,您還可以實施 Cloud Composer 來編排此工作流程。 It is built on Apache Airflow and you can use Airflow-native tools, such as the powerful Airflow web interface and command-line tools, Airflow scheduler etc without worrying about your infrastructure and maintenance.

您可以實施 DAG 以

更多關於雲作曲家

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM