簡體   English   中英

初始化 NVML 失敗:幾個小時后 Docker 出現未知錯誤

[英]Failed to initialize NVML: Unknown Error in Docker after Few hours

我有一個有趣而奇怪的問題。

當我使用 gpu 啟動 docker 容器時,它工作正常,我看到 docker 中的所有 GPU。 但是,幾個小時或幾天后,我無法在 docker 中使用 gpus。

當我在 docker 機器上做nvidia-smi時。 我看到這個消息

“無法初始化 NVML:未知錯誤”

但是,在主機中,我看到所有帶有 nvidia-smi 的 gpus。 另外,當我重新啟動 docker 機器時。 它完全可以正常工作並顯示所有 gpus。

我的推理 Docker 機器應該一直打開,並且推理取決於服務器請求。 有沒有人有同樣的問題或這個問題的解決方案?

我有同樣的問題,我只是在容器中運行screen watch -n 1 nvidia-smi ,現在它可以連續工作。

我有同樣的錯誤。 我嘗試了 docker 的健康檢查作為臨時解決方案。 當 nvidia-smi 失敗時,容器將被標記為不健康,並通過重啟策略重啟。

Docker-compose版本:

healthcheck:
  test: nvidia-smi || exit 1
  start_period: 60s
  interval: 20s
  timeout: 10s
  retries: 2

Dockerfile版本:

HEALTHCHECK \
    --start-period=60s \
    --interval=20s \
    --timeout=10s \  
    --retries=2 \
    CMD nvidia-smi || exit 1

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM