繁体   English   中英

GCP Dataflow 中如何确定永久性磁盘的使用情况?

[英]How is persistent disk use determined in GCP Dataflow?

在定价部分,谷歌表示每个工人有一个默认的 PD 数量(因批处理和流处理而异)。 我正在运行一个作业,考虑到我拥有的工作人员数量(与默认 PD 使用相比),持久性磁盘的使用量远高于应有的数量。 这在多个不同的工作中是一致的。 是什么导致 PD 使用增加? 作为参考,流媒体工作人员的默认值为 480 GB,但我需要支付 5888 GB 的费用。

截至 2021 年的更新

Dataflow 现在有 Streaming Engine - 流引擎不依赖永久磁盘来保存流作业的状态 - 相反它提供了一个抽象流状态/快照存储的“服务”。

如果磁盘计费是流媒体管道中的一个问题,请考虑使用流媒体引擎。

查看更多信息: https ://cloud.google.com/dataflow/docs/guides/deploying-a-pipeline#streaming-engine


这是一个启用了自动缩放的流式管道。

根据https://cloud.google.com/dataflow/service/dataflow-service-desc#autoscaling

流式管道部署有固定的永久性磁盘池,数量等于 --maxNumWorkers

根据https://cloud.google.com/dataflow/service/dataflow-service-desc#persistent-disk-resources

每个永久性磁盘的默认大小在批处理模式下为 250 GB,在流式模式下为 400 GB。

因此,“当前 PD”的预期值应该在(您的maxNumWorkers值)* 400GB 左右,而不是 4 * 400GB。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM