為什么我的 google colab session 不斷崩潰？

Question

我在具有 400 萬行和 29 列的數據集上使用 google colab。 當我運行語句 sns.heatmap(dataset.isnull()) 時，它會運行一段時間，但一段時間后 session 崩潰並且實例重新啟動。 它已經發生了很多，直到現在我還沒有真正看到 output。 可能的原因是什么？ 數據/計算是否太多？ 我能做些什么？

Answer 1

我不確定是什么導致了您的特定崩潰，但一個常見的原因是內存不足錯誤。 聽起來您正在使用足夠大的數據集，這很有可能。 您可以嘗試使用數據集的一個子集，看看錯誤是否再次出現。

否則，CoLab 會將日志保存在/var/log/colab-jupyter.log 。 您可以通過打印其內容來更深入地了解正在發生的事情。 要么運行：

!cat /var/log/colab-jupyter.log

或者，單獨獲取消息（更容易閱讀）：

import json

with open("/var/log/colab-jupyter.log", "r") as fo:
  for line in fo:
    print(json.loads(line)['msg'])

Answer 2

另一個原因 - 如果您使用 PyTorch 並將模型分配給 GPU，但不要將內部張量分配給 GPU（例如隱藏層）。

Answer 3

對我來說，將特定參數傳遞給 tfms 增強會使數據加載器失敗並使會話崩潰。 浪費了大量時間檢查圖像沒有損壞並清理 gc 等等......

Answer 4

如果您啟用 GPU 但不使用它，通常會出現此錯誤。 將您的運行時類型更改為“無”。 您不會再遇到這個問題。 快樂編碼

Answer 5

我首先建議關閉瀏覽器並重新啟動筆記本。 查看運行時日志並檢查是否在任何地方提到了 cuda。 如果沒有，則進行出廠運行時重置並運行筆記本。 再次檢查您的日志，您應該在那里找到 cuda。

Answer 6

對我有用的是單擊 RAM/磁盤資源下拉菜單，然后單擊“管理會話”並終止我當前活躍了幾天的 session。 然后重新連接並再次運行一切。

在此之前，即使前一天運行良好，我的代碼也一直在崩潰，所以我知道在編碼方面沒有任何問題。

After doing this, I also realized that the parameter n_jobs in GridSearchCV ( https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html ) plays a massive role in GPU RAM consumption. 例如，對我來說，如果 n_jobs 設置為 None、1（與 None 相同）或 2，它可以正常工作並且執行不會崩潰。將其設置為 -1（使用所有處理器）或 >3 會導致一切崩潰。

為什么我的 google colab session 不斷崩潰？

問題描述

6 個解決方案

解決方案1
16 已采納 2019-02-05 00:19:18

解決方案2
4 2020-04-21 04:56:50

解決方案3
0 2020-08-29 16:37:35

解決方案4
0 2021-10-23 13:36:11

解決方案5
0 2021-11-07 11:50:10

解決方案6
0 2022-08-25 20:24:06

為什么我的 google colab session 不斷崩潰？

問題描述

6 個解決方案

解決方案1 16 已采納 2019-02-05 00:19:18

解決方案2 4 2020-04-21 04:56:50

解決方案3 0 2020-08-29 16:37:35

解決方案4 0 2021-10-23 13:36:11

解決方案5 0 2021-11-07 11:50:10

解決方案6 0 2022-08-25 20:24:06

解決方案1
16 已采納 2019-02-05 00:19:18

解決方案2
4 2020-04-21 04:56:50

解決方案3
0 2020-08-29 16:37:35

解決方案4
0 2021-10-23 13:36:11

解決方案5
0 2021-11-07 11:50:10

解決方案6
0 2022-08-25 20:24:06