簡體   English   中英

GCP Dataflow 中如何確定永久性磁盤的使用情況?

[英]How is persistent disk use determined in GCP Dataflow?

在定價部分,谷歌表示每個工人有一個默認的 PD 數量(因批處理和流處理而異)。 我正在運行一個作業,考慮到我擁有的工作人員數量(與默認 PD 使用相比),持久性磁盤的使用量遠高於應有的數量。 這在多個不同的工作中是一致的。 是什么導致 PD 使用增加? 作為參考,流媒體工作人員的默認值為 480 GB,但我需要支付 5888 GB 的費用。

截至 2021 年的更新

Dataflow 現在有 Streaming Engine - 流引擎不依賴永久磁盤來保存流作業的狀態 - 相反它提供了一個抽象流狀態/快照存儲的“服務”。

如果磁盤計費是流媒體管道中的一個問題,請考慮使用流媒體引擎。

查看更多信息: https ://cloud.google.com/dataflow/docs/guides/deploying-a-pipeline#streaming-engine


這是一個啟用了自動縮放的流式管道。

根據https://cloud.google.com/dataflow/service/dataflow-service-desc#autoscaling

流式管道部署有固定的永久性磁盤池,數量等於 --maxNumWorkers

根據https://cloud.google.com/dataflow/service/dataflow-service-desc#persistent-disk-resources

每個永久性磁盤的默認大小在批處理模式下為 250 GB,在流式模式下為 400 GB。

因此,“當前 PD”的預期值應該在(您的maxNumWorkers值)* 400GB 左右,而不是 4 * 400GB。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM