簡體   English   中英

向 Trains 服務器報告的彈性如何?

[英]How resilient is reporting to Trains server?

在以下情況下,Trains go 如何將任何丟失的數據發送到服務器?

  • 運行實驗時 Internet 連接暫時中斷
  • 互聯網連接中斷並且在實驗結束前沒有恢復(任何手動方式發送所有丟失的數據?)
  • 運行 Trains 服務器的機器在實驗過程中重置

免責聲明:我是 allegro.ai 火車團隊的一員

  • 火車將自動重試發送日志,基本上是永遠。 日志/指標在后台線程中發送,因此不應干擾執行。 您可以通過調整~/trains.conf文件中的sdk.network.iteration.retry_backoff_factor_sec參數來設置回退參數,以控制重試頻率,請參見此處的示例
  • 當實驗結束時,實驗將嘗試將所有指標刷新到后端,即進程將在_exit 等待,直到發送所有指標。 這意味着如果連接被斷開,它將重試,直到它再次啟動。 如果手動中止實驗,則無法捕獲/重新發送那些丟失的指標報告。 也就是說,在新的 0.16 版本中,引入了離線模式。 這樣就可以離線運行整個實驗,然后報告所有日志/指標/工件。
  • Trains-Server 機器是完全無狀態的(狀態本身存儲在機器上的數據庫中),這意味着從實驗的角度來看,連接斷開了幾分鍾,然后再次可用。 對於您的問題,如果 Trains-Server 重新啟動,它對所有實驗都是透明的,並且它們照常繼續,不會丟失任何報告。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM