我很好奇 GCP 的 Data Fusion 的内部工作流程

Question

我在开发者模式和企业模式下使用过谷歌云平台的 DataFusion 产品。

对于开发者模式，没有 dataproc 设置（主节点、工作节点）。

对于企业模式，有一个 dataproc 设置值。 （主节点、工作节点）

我很好奇的是企业模式的情况。

我能够为主节点和工作节点设置值。

详细地

Enterprise

- Dataproc
- Master.
- Number of masters: 1
- Master Cores: 2vcpu
- Master Memory (GB): 4GB
- Master Disk Size (GB): 1TB
- Worker
- Number of Workers: 2
- Worker Cores: 4vcpu
- Worker Memory (GB): 16GB
- Worker Disk Size (GB): 1.5TB
- VM
- Driver.
- CPU : 2
- Memory: 4GB (=4096MB)
- Executor
- CPU : 2
- Memory : 8GB (=8192MB)

设置如上。

当我创建数据管道时，我可以看到每个 VM 都已创建。

很好奇VM的Driver、Executor和Dataproc的Worker节点是什么关系。

其实DataFusion是给了dataproc的设置。 当我将来创建数据管道时，它会运行 VM 实例作为该 dataproc 的设置。 我想知道VM Instance的设置值（Driver，Executor）和dataproc的值之间的关系。

Answer 1

Dataproc 允许用户创建集群，而 Cloud Data Fusion 中的驱动程序和执行程序设置允许用户调整管道运行将使用的集群资源量。

因此，创建具有 3 个工作程序和 1 个主程序的 Dataproc 集群将创建 4 个具有 memory 和 Dataproc 配置中指定的 CPU 的虚拟机，而驱动程序/执行程序 CPU 和 memory 的设置决定了每个主程序/工作程序虚拟机的 CPU 数量和 memory在集群上运行的数据管道作业将使用的资源。

我很好奇 GCP 的 Data Fusion 的内部工作流程

问题描述

1 个解决方案

解决方案1
2 已采纳 2020-10-29 02:43:03

我很好奇 GCP 的 Data Fusion 的内部工作流程

问题描述

1 个解决方案

解决方案1 2 已采纳 2020-10-29 02:43:03

解决方案1
2 已采纳 2020-10-29 02:43:03