繁体 English 中英

GCP Dataflow 计算图和作业执行

[英]GCP Dataflow Computation Graph and Job Execution

原文 2021-08-14 01:18:58 8 1 google-cloud-platform/ google-cloud-dataflow/ pipeline/ apache-beam/ computation-graph

大家好，当我在谷歌云数据流中创建自定义模板时，我努力了解发生了什么，但未能理解。 感谢 GCP 文档。 以下是我正在实现的目标。

从谷歌云桶中读取数据
预处理它
加载深度学习模型（每个 1 GB）并获得预测
将结果转储到 BigQuery 中。

我成功创建了模板并且能够执行作业。 但我有以下问题。

当我执行作业时，每次在执行期间下载模型（5 个模型，每个 1GB）或加载模型并将其放置在模板（执行图）中，并在执行期间使用加载的模型
如果仅在作业执行期间加载模型，那么它不会影响执行时间吗？ 因为每次触发作业时它都必须加载 GB 的 Model 个文件？
多个用户可以同时触发同一个模板吗？ 因为我想生产它，我不确定这将如何同时处理多个请求？

任何人都可以分享一些信息吗？

我引用但未能得到答案的来源： https://cloud.google.com/dataflow/docs/guides/deploying-a-pipeline#pipeline-lifecycle-from-pipeline-code-to-dataflow-job http:/ /alumni.media.mit.edu/~wad/magiceight/isa/node3.html https://cloud.google.com/dataflow/docs/guides/setting-pipeline-options#configuring-pipelineoptions-for-local-execution https://beam.apache.org/documentation/basics/ https://beam.apache.org/documentation/runtime/model/ https://mehmandarov.com/apache-beam/-pipeline-graph

1 个解决方案

这取决于从哪里加载模型。 如果它们加载到 DoFns 中（最有可能），那么它将发生在工作人员中（在作业执行期间）。

至于您的其他问题，多个用户同时触发模板作业应该没有问题。

GCP 数据流作业部署

[英]GCP Dataflow Job Deployment

来自作曲家错误的 gcp 触发数据流作业

[英]gcp trigger dataflow job from composer error

GCP 数据流作业 REST 响应添加显示数据 object 与 {“key”：“datasetName”，...}

[英]GCP Dataflow JOB REST response add displayData object with { "key":"datasetName", ...}

为什么在 GCP 的 java sdk 中编写的数据流作业管道的日志不可见？

[英]why logs are not visible for Dataflow job pipeline written in java sdk at GCP?

作业图太大，无法提交到 Google Cloud Dataflow

[英]Job graph too large to submit to Google Cloud Dataflow

如何将非模板化的梁作业转换为模板化作业并在 GCP Dataflow 运行器上运行？

[英]How to convert a non-templated beam job to templated job and run it on GCP Dataflow runner?

如何运行用 Golang 编写的 GCP Cloud Function 以运行数据流作业以将文本文件导入 Spanner？

[英]How to run a GCP Cloud Function written in Golang to run a Dataflow job to import text file to Spanner?

GCP 数据流批处理作业 - 防止工作人员在批处理作业中一次运行多个元素

[英]GCP Dataflow Batch jobs - Preventing workers from running more than one element at a time in a batch job

GCP 数据流和 On-premDB

[英]GCP dataflow and On-premDB

GCP 数据流：打印 PCollection 数据

[英]GCP Dataflow : print PCollection data

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 GCP 数据流作业部署来自作曲家错误的 gcp 触发数据流作业 GCP 数据流作业 REST 响应添加显示数据 object 与 {“key”：“datasetName”，...} 为什么在 GCP 的 java sdk 中编写的数据流作业管道的日志不可见？作业图太大，无法提交到 Google Cloud Dataflow 如何将非模板化的梁作业转换为模板化作业并在 GCP Dataflow 运行器上运行？如何运行用 Golang 编写的 GCP Cloud Function 以运行数据流作业以将文本文件导入 Spanner？ GCP 数据流批处理作业 - 防止工作人员在批处理作业中一次运行多个元素 GCP 数据流和 On-premDB GCP 数据流：打印 PCollection 数据

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM