簡體   English   中英

完全相同的代碼在不同設備上獲得完全不同的Tensorboard結果

[英]The exactly same code gets completely different Tensorboard results on different devices

我有完全相同的代碼來創建TFRecord文件並分別在兩台計算機上訓練我的模型(使用GPU)。

1關於硬件:

一個是我的MacBook,帶有NVIDIA GTX1080 eGPU,tf1.6。 另一個是帶有NVIDIA M4000 ,tf1.6,

2關於代碼:

我用

tf.set_random_seed(FLAGS.seed)

np.random.seed(FLAGS.seed)

FLAGS.seed = 1

每當我需要使用隨機函數的地方。

我沒有關於設備的任何代碼

3張TensorBoard輸出:

的MacBook: 在此處輸入圖片說明

Ubuntu服務器: 在此處輸入圖片說明

val的精度和mIOU幾乎不變

4其他嘗試

  1. 我更改損失函數,但問題仍然存在。
  2. 我將Ubuntu中的tensorflow升級到tf1.10,但問題仍然存在。

5我的猜測

M4000支持64位計算,而1080僅支持32位,也許原因與此有關?

6我的問題

此問題的原因是什么,我該如何修復?

我發現了我的問題的可能原因。

由於我的數據集功能很復雜,在我發布此問題后,我多次在問題中看到過類似“ Ubuntu Server”的張量板曲線,但是經過一段時間后,“ acc”和“ mIOU”曲線看起來像是“的macbook”。

因此,我猜測cuDNN中存在一些與硬件相關的功能,這些功能導致細微的差異。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM