簡體 English 中英

Tensorflow 每個 epoch 后的分布式訓練暫停

[英]Tensorflow distributed training pause after each epoch

原文 2020-07-01 19:17:09 7 1 python/ tensorflow2.0

我正在使用 Tensorflow MirroredStrategy 在 2 個 GPU 上並行訓練神經網絡。 使用單個 GPU，每個 epoch 需要 19 秒才能完成，而使用 2 個 GPU，每個 epoch 需要 13 秒才能完成。 我對此並不感到驚訝，因為我知道由於在訓練期間更新變量的 all_reduce 開銷，縮放並不完美。

但是，在分布式訓練的每個 epoch 之后，都會有大約 8 秒的停頓。 使用單個 GPU 時，此暫停時間小於 1 秒。 有誰知道為什么在分布訓練時每個 epoch 后會有這么長時間的停頓？

或者，任何人都可以解釋在一個時代結束時分布式訓練中發生的不同情況嗎？

1 個解決方案

顯然這與在圖形模式下運行 TF 有關。 通過設置tf.compat.v1.enable_eager_execution()問題消失了。 這也修復了導致問題的 memory 泄漏，因此暫停可能是由於 TF 復制了我沒想到的東西造成的。

Tensorflow 每個時期對數據集的不同子集進行訓練

[英]Tensorflow training on different subset of dataset each epoch

如何在 Keras 的每個訓練周期后進行預測？

[英]How to predict after each epoch of training in Keras?

如何在 tensorflow 1.x 的每個訓練時期保持模型的輸出？

[英]How to hold the output of a model at each training epoch in tensorflow 1.x?

在 Tensorflow 2 中的每個 epoch 之后計算每個類的召回率

[英]Calculate recall for each class after each epoch in Tensorflow 2

張量流分布式培訓中的FLAGS和解析器

[英]FLAGS and parsers in tensorflow distributed training

Tensorflow輸入管道用於分布式培訓

[英]Tensorflow input pipeline for distributed training

從Tensorflow 1.8.0升級到1.11.0后每個時期記錄的OutOfRangeError

[英]OutOfRangeError logged at each epoch after upgrade from Tensorflow 1.8.0 to 1.11.0

在訓練期間如何在每個 epoch 結束時調用測試集？我正在使用張量流

[英]How can I call a test set at the end of each epoch during the training? I am using tensorflow

tensorflow-keras 如何計算每個 epoch 的訓練成本？

[英]How does tensorflow-keras calculate the cost during training in each epoch?

如何在訓練運行之間的中間層內的每個時期更新參數？（張量流急切執行）

[英]How to update parameter at each epoch within an intermediate Layer between training runs ? (tensorflow eager execution)

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Tensorflow 每個時期對數據集的不同子集進行訓練如何在 Keras 的每個訓練周期后進行預測？如何在 tensorflow 1.x 的每個訓練時期保持模型的輸出？在 Tensorflow 2 中的每個 epoch 之后計算每個類的召回率張量流分布式培訓中的FLAGS和解析器 Tensorflow輸入管道用於分布式培訓從Tensorflow 1.8.0升級到1.11.0后每個時期記錄的OutOfRangeError 在訓練期間如何在每個 epoch 結束時調用測試集？我正在使用張量流 tensorflow-keras 如何計算每個 epoch 的訓練成本？如何在訓練運行之間的中間層內的每個時期更新參數？（張量流急切執行）

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM