簡體   English   中英

使用 terraform 添加 GKE 節點池 GPU

[英]Adding GKE node pool with GPU using terraform

我嘗試使用 GPU 創建 google_container_node_pool。 我嘗試了機器類型 nvidia-tesla-p4 和 a2-highgpu-1g,每個都返回不同的錯誤:

項目/my-project-id/zones/us-central1-a/machineTypes/nvidia-tesla-p4

要么

錯誤:創建 NodePool 時出錯:googleapi:錯誤 403:區域配額不足以滿足請求:資源“PREEMPTIBLE_NVIDIA_V100_GPUS”:請求需要“3.0”且短為“2.0”。 項目的配額為“1.0”,可用“1.0”。 https://console.cloud.google.com/iam-admin/quotas?usage=USED&project=my-project-id 查看和管理配額。 , 禁止

當我查看配額頁面時,相關配額顯示“所有 99 個配額都在限制范圍內”。

根據要求我需要配額但他們沒有指定哪個配額。

更新:

將 machine_type 更改為 a2-highgpu-1g 將錯誤消息更改為與不同的配額 A2_CPUS 相關。 當我將 preemptible 的值更改為 false 時,我得到了與 NVIDIA_A100_GPUS 相同的錯誤,而不是 PREEMPTIBLE_NVIDIA_V100_GPUS 或 A2_CPUS。 A2_CPUS 和 NVIDIA_A100_GPUS 的問題是我不能請求配額,因為 UI 中的復選框被禁用並且它顯示限制為“無限制”: 在此處輸入圖像描述

您在配額頁面中看不到錯誤,因為沒有違反您的配額,因為沒有創建節點。

例如,如果您想創建一個包含 3 個節點的節點池,每個節點有 1 個 V100 GPU、go 到配額頁面並請求將PREEMPTIBLE_NVIDIA_V100_GPUS的數量從 1 擴展到 3。重復每個 GPU 和區。
請注意,您應該等到 GCP 批准您的請求,然后再嘗試在 Terraform 中再次創建資源。

如果您不想擴展配額而只想檢查您的 TF 配置,只需將 GPU 節點的數量減少到不違反配額的數量即可。

顯示您看到的第一條消息是因為 GCP 中沒有名為nvidia-tesla-p4的機器類型。 本文檔中有可用機器類型的完整列表,但請確保使用在您啟動 GKE 集群的區域和專區中可用的機器類型。 您可以使用以下命令檢查區域中可用的有效機器類型: gcloud compute machine-types list --filter="zone:( ZONE … )"

關於第二條消息,很明顯您沒有足夠的配額用於該地區的特定 GPU。 正如@hilsenrat 所提到的,您看不到任何配額被用盡,因為集群從來沒有首先創建過。

正如有關在 GKE 中運行 GPU 的文檔的可用性部分所述:

GPU 在特定區域和專區可用。 當您請求 GPU 配額時,請考慮您打算在其中運行集群的區域。

有關適用區域和可用區的完整列表,請參閱Compute Engine 上的 GPU

要查看每個區域支持的所有 GPU 加速器類型的列表,請運行以下命令: gcloud compute accelerator-types list --filter="zone:( ZONE )"

當你添加一個GPU到搶占式實例時,你使用你的常規GPU配額,我也會確保REGION中V100的配額足夠。 如果您需要單獨的可搶占 GPU 配額,請按照此處所述請求單獨的可搶占 GPU 配額。

我建議轉到配額頁面並過濾這些特定配額,確保單擊“詳細信息”列下的“所有配額”。 將顯示區域配額。

  • 服務:計算引擎 API

  •  Name: GPUs (all regions)
  •  Quota Metric: compute.googleapis.com/gpus_all_regions
  •  Limit Name: GPUS-ALL-REGIONS-per-project
  • 服務:計算引擎 API

  •  Name: NVIDIA V100 GPUs
  •  Quota Metric: compute.googleapis.com/nvidia_v100_gpus
  •  Limit Name: NVIDIA-V100-GPUS-per-project-zone/NVIDIA-V100-GPUS-per-project-region
  • 服務:計算引擎 API

  •  Name: Preemptible NVIDIA V100 GPUs
  •  Quota Metric: compute.googleapis.com/preemptible_nvidia_v100_gpus
  •  Limit Name: PREEMPTIBLE-NVIDIA-V100-GPUS-per-project-zone/PREEMPTIBLE-NVIDIA-V100-GPUS-per-project-region

確保您有足夠的全球區域配額用於您嘗試使用的特定 GPU model。 如此處所述需要單獨請求搶占式 GPU。

- - - 更新 - -

另請注意,只能申請區域配額以增加配額。 列出的任何區域配額都取決於相應的區域配額。 在此捕獲中,即使區域限制讀取為unlimited ,區域配額為0並且嘗試在整個區域中使用 GPU 也會失敗。 (如您所見,版本只能選擇區域配額)。

區域與區域 GPU 配額

您提到現在收到一條消息,提示您沒有足夠的 A2 CPU 配額。 請確保該區域有足夠的 CPU 配額以及足夠的 A2 CPU 配額 為此,您必須考慮要部署的機器類型所需的 vCPU 數量。

選擇區域 A2 CPU 配額

您可以在此處閱讀有關使用 CPU 配額的更多信息。

我希望這些信息有用並能澄清您的問題。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM