簡體 English 中英

GCP Dataflow 計算圖和作業執行

[英]GCP Dataflow Computation Graph and Job Execution

原文 2021-08-14 01:18:58 2 1 google-cloud-platform/ google-cloud-dataflow/ pipeline/ apache-beam/ computation-graph

大家好，當我在谷歌雲數據流中創建自定義模板時，我努力了解發生了什么，但未能理解。 感謝 GCP 文檔。 以下是我正在實現的目標。

從谷歌雲桶中讀取數據
預處理它
加載深度學習模型（每個 1 GB）並獲得預測
將結果轉儲到 BigQuery 中。

我成功創建了模板並且能夠執行作業。 但我有以下問題。

當我執行作業時，每次在執行期間下載模型（5 個模型，每個 1GB）或加載模型並將其放置在模板（執行圖）中，並在執行期間使用加載的模型
如果僅在作業執行期間加載模型，那么它不會影響執行時間嗎？ 因為每次觸發作業時它都必須加載 GB 的 Model 個文件？
多個用戶可以同時觸發同一個模板嗎？ 因為我想生產它，我不確定這將如何同時處理多個請求？

任何人都可以分享一些信息嗎？

我引用但未能得到答案的來源： https://cloud.google.com/dataflow/docs/guides/deploying-a-pipeline#pipeline-lifecycle-from-pipeline-code-to-dataflow-job http:/ /alumni.media.mit.edu/~wad/magiceight/isa/node3.html https://cloud.google.com/dataflow/docs/guides/setting-pipeline-options#configuring-pipelineoptions-for-local-execution https://beam.apache.org/documentation/basics/ https://beam.apache.org/documentation/runtime/model/ https://mehmandarov.com/apache-beam/-pipeline-graph

1 個解決方案

這取決於從哪里加載模型。 如果它們加載到 DoFns 中（最有可能），那么它將發生在工作人員中（在作業執行期間）。

至於您的其他問題，多個用戶同時觸發模板作業應該沒有問題。

GCP 數據流作業部署

[英]GCP Dataflow Job Deployment

來自作曲家錯誤的 gcp 觸發數據流作業

[英]gcp trigger dataflow job from composer error

GCP 數據流作業 REST 響應添加顯示數據 object 與 {“key”：“datasetName”，...}

[英]GCP Dataflow JOB REST response add displayData object with { "key":"datasetName", ...}

為什么在 GCP 的 java sdk 中編寫的數據流作業管道的日志不可見？

[英]why logs are not visible for Dataflow job pipeline written in java sdk at GCP?

作業圖太大，無法提交到 Google Cloud Dataflow

[英]Job graph too large to submit to Google Cloud Dataflow

如何將非模板化的梁作業轉換為模板化作業並在 GCP Dataflow 運行器上運行？

[英]How to convert a non-templated beam job to templated job and run it on GCP Dataflow runner?

如何運行用 Golang 編寫的 GCP Cloud Function 以運行數據流作業以將文本文件導入 Spanner？

[英]How to run a GCP Cloud Function written in Golang to run a Dataflow job to import text file to Spanner?

GCP 數據流批處理作業 - 防止工作人員在批處理作業中一次運行多個元素

[英]GCP Dataflow Batch jobs - Preventing workers from running more than one element at a time in a batch job

GCP 數據流和 On-premDB

[英]GCP dataflow and On-premDB

GCP 數據流：打印 PCollection 數據

[英]GCP Dataflow : print PCollection data

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 GCP 數據流作業部署來自作曲家錯誤的 gcp 觸發數據流作業 GCP 數據流作業 REST 響應添加顯示數據 object 與 {“key”：“datasetName”，...} 為什么在 GCP 的 java sdk 中編寫的數據流作業管道的日志不可見？作業圖太大，無法提交到 Google Cloud Dataflow 如何將非模板化的梁作業轉換為模板化作業並在 GCP Dataflow 運行器上運行？如何運行用 Golang 編寫的 GCP Cloud Function 以運行數據流作業以將文本文件導入 Spanner？ GCP 數據流批處理作業 - 防止工作人員在批處理作業中一次運行多個元素 GCP 數據流和 On-premDB GCP 數據流：打印 PCollection 數據

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM