簡體   English   中英

我可以將 google DataFlow 與本機 python 一起使用嗎?

[英]Can I use google DataFlow with native python?

我正在嘗試在谷歌雲中構建一個 python ETL 管道,而谷歌雲數據流似乎是一個不錯的選擇。 當我瀏覽文檔和開發人員指南時,我看到 apache beam 始終附加到數據流,因為它基於它。 我可能會在 apache beam 中發現處理我的數據幀的問題。

我的問題是:

  • 如果我想使用 DataFlow 在本機 python 中構建我的 ETL 腳本,這可能嗎? 或者有必要為我的 ETL 使用 apache 光束?
  • 如果 DataFlow 只是為了使用 Apache Beam 而構建的? 是否有用於構建 python ETL 的無服務器谷歌雲工具(谷歌雲 function 執行時間為 9 分鍾,這可能會導致我的管道出現一些問題,我想在執行限制中避免)

我的管道旨在從 BigQuery 處理它讀取數據並將其重新保存在一個 bigquery 表中。 我可能會在我的腳本中使用一些外部 API。

關於你的第一個問題,看起來數據流主要是為了在 Apache SDK 中使用它而編寫的,可以在數據流的官方谷歌雲文檔中查看 因此,實際上可能需要為您的 ETL 使用 Apache Beam。

關於您的第二個問題, 本教程將指導您如何使用 Python 和 Google Cloud Platform 函數構建自己的 ETL 管道,這些管道實際上是無服務器的。 您能否確認此鏈接是否對您有所幫助?

關於你的第一個問題,Dataflow需要使用Apache Beam。 事實上,在 Apache Beam 之前,有一個叫做 Dataflow SDK 的東西,它是 Google 專有的,然后開源給 Apache Beam。

Python Beam SDK 是相當容易的,一旦你付出了一些努力,你需要的主要流程操作非常接近原生 Python 語言。

如果您的最終目標是讀取、處理和寫入 BQ,我會說 Beam + Dataflow 是一個很好的搭配。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM