簡體   English   中英

停止並啟動深度學習 VM 后找不到 NVIDIA 驅動程序

[英]Can not find NVIDIA driver after stop and start a deep learning VM

[TL;DR]首先,等待幾分鍾並檢查 Nvidia 驅動程序是否開始正常工作。 如果不是,請停止並再次啟動 VM 實例。

我創建了一個帶有 A100 GPU 的深度學習 VM (谷歌點擊部署)。停止並啟動實例后,當我運行nvidia-smi時,我收到以下錯誤消息:

NVIDIA-SMI 失敗,因為它無法與 NVIDIA 驅動程序通信。 確保已安裝並運行最新的 NVIDIA 驅動程序。

但是如果我輸入which nvidia-smi ,我得到

/usr/bin/nvidia-smi

貌似驅動是有的,但是不能用。 有人可以建議如何在停止和啟動深度學習 VM 后啟用 NVIDIA 驅動程序嗎? 我第一次創建並打開實例時,會自動安裝驅動程序。

系統信息是(使用uname -m && cat /etc/*release ):

x86_64
PRETTY_NAME="Debian GNU/Linux 10 (破壞者)"
名稱="Debian GNU/Linux"
VERSION_ID="10"
VERSION="10 (克星)"
VERSION_CODENAME=破壞者
ID=debian
HOME_URL="https://www.debian.org/"
SUPPORT_URL="https://www.debian.org/support"
BUG_REPORT_URL="https://bugs.debian.org/"

我嘗試了 GCP 的安裝腳本 第一次運行

curl https://raw.githubusercontent.com/GoogleCloudPlatform/compute-gpu-installation/main/linux/install_gpu_driver.py --output install_gpu_driver.py

然后運行

sudo python3 install_gpu_driver.py

它給出了以下信息:

執行:which nvidia-smi
/usr/bin/nvidia-smi
已安裝。

發布問題后,Nvidia 驅動程序在等待幾分鍾后開始正常工作。

在接下來的幾天里,我多次嘗試停止/啟動 VM 實例。 有時nvidia-smi直接工作,有時等待超過 20 分鍾后不工作。 我目前對這個問題的最佳答案是先等待幾分鍾。 如果nvidia-smi仍然不起作用,請停止並重新啟動該實例。

對我有用的(不確定 go 下一次啟動是否正常)是刪除所有驅動程序: sudo apt remove --purge '*nvidia*' ,然后使用sudo python3 install_gpu_driver.py強制安裝。

install_gpu_driver.py中,更改第 230 行以在check_driver_installed function 中return False 。然后,運行腳本。

誰使用 docker 可能會遇到此錯誤docker: Error response from daemon: could not select device driver "" with capabilities: [[gpu]]並且必須重新安裝 docker。 這個線程幫助了我。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM