[英]Failed to initialize NVML: Unknown Error in Docker after Few hours
我有一個有趣而奇怪的問題。
當我使用 gpu 啟動 docker 容器時,它工作正常,我看到 docker 中的所有 GPU。 但是,幾個小時或幾天后,我無法在 docker 中使用 gpus。
當我在 docker 機器上做nvidia-smi
時。 我看到這個消息
“無法初始化 NVML:未知錯誤”
但是,在主機中,我看到所有帶有 nvidia-smi 的 gpus。 另外,當我重新啟動 docker 機器時。 它完全可以正常工作並顯示所有 gpus。
我的推理 Docker 機器應該一直打開,並且推理取決於服務器請求。 有沒有人有同樣的問題或這個問題的解決方案?
我有同樣的問題,我只是在容器中運行screen watch -n 1 nvidia-smi
,現在它可以連續工作。
我有同樣的錯誤。 我嘗試了 docker 的健康檢查作為臨時解決方案。 當 nvidia-smi 失敗時,容器將被標記為不健康,並通過重啟策略重啟。
healthcheck:
test: nvidia-smi || exit 1
start_period: 60s
interval: 20s
timeout: 10s
retries: 2
Dockerfile版本:
HEALTHCHECK \
--start-period=60s \
--interval=20s \
--timeout=10s \
--retries=2 \
CMD nvidia-smi || exit 1
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.