簡體   English   中英

GCP Dataflow 計算圖和作業執行

[英]GCP Dataflow Computation Graph and Job Execution

大家好,當我在谷歌雲數據流中創建自定義模板時,我努力了解發生了什么,但未能理解。 感謝 GCP 文檔。 以下是我正在實現的目標。

  1. 從谷歌雲桶中讀取數據
  2. 預處理它
  3. 加載深度學習模型(每個 1 GB)並獲得預測
  4. 將結果轉儲到 BigQuery 中。

我成功創建了模板並且能夠執行作業。 但我有以下問題。

  1. 當我執行作業時,每次在執行期間下載模型(5 個模型,每個 1GB)加載模型並將其放置在模板(執行圖)中,並在執行期間使用加載的模型
  2. 如果僅在作業執行期間加載模型,那么它不會影響執行時間嗎? 因為每次觸發作業時它都必須加載 GB 的 Model 個文件?
  3. 多個用戶可以同時觸發同一個模板嗎? 因為我想生產它,我不確定這將如何同時處理多個請求?

任何人都可以分享一些信息嗎?

我引用但未能得到答案的來源: https://cloud.google.com/dataflow/docs/guides/deploying-a-pipeline#pipeline-lifecycle-from-pipeline-code-to-dataflow-job http:/ /alumni.media.mit.edu/~wad/magiceight/isa/node3.html https://cloud.google.com/dataflow/docs/guides/setting-pipeline-options#configuring-pipelineoptions-for-local-execution https://beam.apache.org/documentation/basics/ https://beam.apache.org/documentation/runtime/model/ https://mehmandarov.com/apache-beam/-pipeline-graph

這取決於從哪里加載模型。 如果它們加載到 DoFns 中(最有可能),那么它將發生在工作人員中(在作業執行期間)。

至於您的其他問題,多個用戶同時觸發模板作業應該沒有問題。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM