[英]How is persistent disk use determined in GCP Dataflow?
在定价部分,谷歌表示每个工人有一个默认的 PD 数量(因批处理和流处理而异)。 我正在运行一个作业,考虑到我拥有的工作人员数量(与默认 PD 使用相比),持久性磁盘的使用量远高于应有的数量。 这在多个不同的工作中是一致的。 是什么导致 PD 使用增加? 作为参考,流媒体工作人员的默认值为 480 GB,但我需要支付 5888 GB 的费用。
截至 2021 年的更新
Dataflow 现在有 Streaming Engine - 流引擎不依赖永久磁盘来保存流作业的状态 - 相反它提供了一个抽象流状态/快照存储的“服务”。
如果磁盘计费是流媒体管道中的一个问题,请考虑使用流媒体引擎。
查看更多信息: https ://cloud.google.com/dataflow/docs/guides/deploying-a-pipeline#streaming-engine
这是一个启用了自动缩放的流式管道。
根据https://cloud.google.com/dataflow/service/dataflow-service-desc#autoscaling :
流式管道部署有固定的永久性磁盘池,数量等于 --maxNumWorkers
根据https://cloud.google.com/dataflow/service/dataflow-service-desc#persistent-disk-resources :
每个永久性磁盘的默认大小在批处理模式下为 250 GB,在流式模式下为 400 GB。
因此,“当前 PD”的预期值应该在(您的maxNumWorkers
值)* 400GB 左右,而不是 4 * 400GB。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.