Tensorflow GPU應用程序使Jupyter Notebook內核崩潰

Question

我們正在使用多個Jupyter筆記本在GPU上運行Tensorflow應用程序。 每隔一段時間，一次運行會使筆記本崩潰，並帶有簡單的通知“內核已崩潰...”。

當我們將代碼放入python .py文件時，stderr輸出為

F tensorflow/core/kernels/conv_ops_3d.cc:369] Check failed:   stream->parent()->GetConvolveAlgorithms(&algorithms)
Aborted

在另一次運行中，stderr報告：

F tensorflow/core/common_runtime/gpu/gpu_util.cc:296] GPU->CPU Memcpy failed

問題在於tensorflow應用程序正在占用大量內存。 在Linux中，您可以運行top看看發生了什么。 在我們的機器上，我們看到每個張量流過程都吸引了0.55t ！

當您在Jupyter筆記本電腦中運行該進程並且不關閉筆記本電腦時，筆記本電腦不會釋放內存。 在某個時候，您將運行無法訪問內存的進程，並且該進程將死亡。 如果您在筆記本中運行，則只會告訴您內核已經死亡。

有人能幫忙嗎？

Answer 1

一種建議是在導入tensorflow之前放置以下代碼段：

import os
os.environ["CUDA_VISIBLE_DEVICES"]="-1"

在@ Nicolas評論后添加

是的，這會禁用GPU！ 這不是想要的。