![](/img/trans.png)
[英]Is it possible to resize a node pool disk size on GKE with terraform whitout recreating the cluster?
[英]Adding GKE node pool with GPU using terraform
我嘗試使用 GPU 創建 google_container_node_pool。 我嘗試了機器類型 nvidia-tesla-p4 和 a2-highgpu-1g,每個都返回不同的錯誤:
項目/my-project-id/zones/us-central1-a/machineTypes/nvidia-tesla-p4
要么
錯誤:創建 NodePool 時出錯:googleapi:錯誤 403:區域配額不足以滿足請求:資源“PREEMPTIBLE_NVIDIA_V100_GPUS”:請求需要“3.0”且短為“2.0”。 項目的配額為“1.0”,可用“1.0”。 在https://console.cloud.google.com/iam-admin/quotas?usage=USED&project=my-project-id 查看和管理配額。 , 禁止
當我查看配額頁面時,相關配額顯示“所有 99 個配額都在限制范圍內”。
根據要求我需要配額但他們沒有指定哪個配額。
更新:
將 machine_type 更改為 a2-highgpu-1g 將錯誤消息更改為與不同的配額 A2_CPUS 相關。 當我將 preemptible 的值更改為 false 時,我得到了與 NVIDIA_A100_GPUS 相同的錯誤,而不是 PREEMPTIBLE_NVIDIA_V100_GPUS 或 A2_CPUS。 A2_CPUS 和 NVIDIA_A100_GPUS 的問題是我不能請求配額,因為 UI 中的復選框被禁用並且它顯示限制為“無限制”:
您在配額頁面中看不到錯誤,因為沒有違反您的配額,因為沒有創建節點。
例如,如果您想創建一個包含 3 個節點的節點池,每個節點有 1 個 V100 GPU、go 到配額頁面並請求將PREEMPTIBLE_NVIDIA_V100_GPUS
的數量從 1 擴展到 3。重復每個 GPU 和區。
請注意,您應該等到 GCP 批准您的請求,然后再嘗試在 Terraform 中再次創建資源。
如果您不想擴展配額而只想檢查您的 TF 配置,只需將 GPU 節點的數量減少到不違反配額的數量即可。
顯示您看到的第一條消息是因為 GCP 中沒有名為nvidia-tesla-p4
的機器類型。 在本文檔中有可用機器類型的完整列表,但請確保使用在您啟動 GKE 集群的區域和專區中可用的機器類型。 您可以使用以下命令檢查區域中可用的有效機器類型: gcloud compute machine-types list --filter="zone:( ZONE … )"
關於第二條消息,很明顯您沒有足夠的配額用於該地區的特定 GPU。 正如@hilsenrat 所提到的,您看不到任何配額被用盡,因為集群從來沒有首先創建過。
正如有關在 GKE 中運行 GPU 的文檔的可用性部分所述:
GPU 在特定區域和專區可用。 當您請求 GPU 配額時,請考慮您打算在其中運行集群的區域。
有關適用區域和可用區的完整列表,請參閱Compute Engine 上的 GPU 。
要查看每個區域支持的所有 GPU 加速器類型的列表,請運行以下命令: gcloud compute accelerator-types list --filter="zone:( ZONE )"
當你添加一個GPU到搶占式實例時,你使用你的常規GPU配額,我也會確保REGION中V100的配額足夠。 如果您需要單獨的可搶占 GPU 配額,請按照此處所述請求單獨的可搶占 GPU 配額。
我建議轉到配額頁面並過濾這些特定配額,確保單擊“詳細信息”列下的“所有配額”。 將顯示區域配額。
服務:計算引擎 API
Name: GPUs (all regions)
Quota Metric: compute.googleapis.com/gpus_all_regions
Limit Name: GPUS-ALL-REGIONS-per-project
服務:計算引擎 API
Name: NVIDIA V100 GPUs
Quota Metric: compute.googleapis.com/nvidia_v100_gpus
Limit Name: NVIDIA-V100-GPUS-per-project-zone/NVIDIA-V100-GPUS-per-project-region
服務:計算引擎 API
Name: Preemptible NVIDIA V100 GPUs
Quota Metric: compute.googleapis.com/preemptible_nvidia_v100_gpus
Limit Name: PREEMPTIBLE-NVIDIA-V100-GPUS-per-project-zone/PREEMPTIBLE-NVIDIA-V100-GPUS-per-project-region
確保您有足夠的全球和區域配額用於您嘗試使用的特定 GPU model。 如此處所述,需要單獨請求搶占式 GPU。
- - - 更新 - -
另請注意,只能申請區域配額以增加配額。 列出的任何區域配額都取決於相應的區域配額。 在此捕獲中,即使區域限制讀取為unlimited ,區域配額為0並且嘗試在整個區域中使用 GPU 也會失敗。 (如您所見,版本只能選擇區域配額)。
您提到現在收到一條消息,提示您沒有足夠的 A2 CPU 配額。 請確保該區域有足夠的 CPU 配額以及足夠的 A2 CPU 配額。 為此,您必須考慮要部署的機器類型所需的 vCPU 數量。
您可以在此處閱讀有關使用 CPU 配額的更多信息。
我希望這些信息有用並能澄清您的問題。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.