簡體   English   中英

為什么我的 google colab session 不斷崩潰?

[英]Why does my google colab session keep crashing?

我在具有 400 萬行和 29 列的數據集上使用 google colab。 當我運行語句 sns.heatmap(dataset.isnull()) 時,它會運行一段時間,但一段時間后 session 崩潰並且實例重新啟動。 它已經發生了很多,直到現在我還沒有真正看到 output。 可能的原因是什么? 數據/計算是否太多? 我能做些什么?

我不確定是什么導致了您的特定崩潰,但一個常見的原因是內存不足錯誤。 聽起來您正在使用足夠大的數據集,這很有可能。 您可以嘗試使用數據集的一個子集,看看錯誤是否再次出現。

否則,CoLab 會將日志保存在/var/log/colab-jupyter.log 您可以通過打印其內容來更深入地了解正在發生的事情。 要么運行:

!cat /var/log/colab-jupyter.log

或者,單獨獲取消息(更容易閱讀):

import json

with open("/var/log/colab-jupyter.log", "r") as fo:
  for line in fo:
    print(json.loads(line)['msg'])

另一個原因 - 如果您使用 PyTorch 並將模型分配給 GPU,但不要將內部張量分配給 GPU(例如隱藏層)。

對我來說,將特定參數傳遞給 tfms 增強會使數據加載器失敗並使會話崩潰。 浪費了大量時間檢查圖像沒有損壞並清理 gc 等等......

如果您啟用 GPU 但不使用它,通常會出現此錯誤。 將您的運行時類型更改為“”。 您不會再遇到這個問題。 快樂編碼

我首先建議關閉瀏覽器並重新啟動筆記本。 查看運行時日志並檢查是否在任何地方提到了 cuda。 如果沒有,則進行出廠運行時重置並運行筆記本。 再次檢查您的日志,您應該在那里找到 cuda。

對我有用的是單擊 RAM/磁盤資源下拉菜單,然后單擊“管理會話”並終止我當前活躍了幾天的 session。 然后重新連接並再次運行一切。

在此之前,即使前一天運行良好,我的代碼也一直在崩潰,所以我知道在編碼方面沒有任何問題。

After doing this, I also realized that the parameter n_jobs in GridSearchCV ( https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html ) plays a massive role in GPU RAM consumption. 例如,對我來說,如果 n_jobs 設置為 None、1(與 None 相同)或 2,它可以正常工作並且執行不會崩潰。將其設置為 -1(使用所有處理器)或 >3 會導致一切崩潰。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM