繁体   English   中英

GCP Dataflow 计算图和作业执行

[英]GCP Dataflow Computation Graph and Job Execution

大家好,当我在谷歌云数据流中创建自定义模板时,我努力了解发生了什么,但未能理解。 感谢 GCP 文档。 以下是我正在实现的目标。

  1. 从谷歌云桶中读取数据
  2. 预处理它
  3. 加载深度学习模型(每个 1 GB)并获得预测
  4. 将结果转储到 BigQuery 中。

我成功创建了模板并且能够执行作业。 但我有以下问题。

  1. 当我执行作业时,每次在执行期间下载模型(5 个模型,每个 1GB)加载模型并将其放置在模板(执行图)中,并在执行期间使用加载的模型
  2. 如果仅在作业执行期间加载模型,那么它不会影响执行时间吗? 因为每次触发作业时它都必须加载 GB 的 Model 个文件?
  3. 多个用户可以同时触发同一个模板吗? 因为我想生产它,我不确定这将如何同时处理多个请求?

任何人都可以分享一些信息吗?

我引用但未能得到答案的来源: https://cloud.google.com/dataflow/docs/guides/deploying-a-pipeline#pipeline-lifecycle-from-pipeline-code-to-dataflow-job http:/ /alumni.media.mit.edu/~wad/magiceight/isa/node3.html https://cloud.google.com/dataflow/docs/guides/setting-pipeline-options#configuring-pipelineoptions-for-local-execution https://beam.apache.org/documentation/basics/ https://beam.apache.org/documentation/runtime/model/ https://mehmandarov.com/apache-beam/-pipeline-graph

这取决于从哪里加载模型。 如果它们加载到 DoFns 中(最有可能),那么它将发生在工作人员中(在作业执行期间)。

至于您的其他问题,多个用户同时触发模板作业应该没有问题。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM