[英]When should a monto carlo tree search be reset?
我正在嘗試構建/理解蒙特卡洛樹搜索算法 (mcts) 如何與神經網絡結合使用以學習如何玩游戲(如國際象棋)。 但是我無法理解何時重置樹。
我以https://github.com/suragnair/alpha-zero-general為例。 但是對我來說,關於這個實現的一件事是它在每個單獨的游戲之后重置樹,這對我來說似乎不正確。 (所以每次制作新游戲時都會創建一棵新樹)。 我認為 mcts 的想法是在很多游戲中積累知識,並且只有在你訓練了你的網絡后才重置樹來預測每個棋盤狀態的新概率?
這是我誤解了 mcts 還是該特定實現中的錯誤?
我假設您在談論 AlphaZero,因為那是您鏈接到的回購所做的,但 MCTS 是一個更籠統的術語。
永遠保留舊的搜索樹並不實際,這會花費太多 memory 並且它們中的大多數最終不會再次被使用(因為在訓練過程中后期生成的游戲有望與早期的游戲看起來非常不同)。 重點是我們將通過樹搜索獲得的知識提取到神經網絡中,然后我們在未來的游戲中使用它來進行更好的樹搜索。
作為一個小的優化,為下一步移動保留樹,或者暫時緩存神經網絡輸出仍然是有意義的。 我假設這就是您在鏈接的回購協議中看到的內容。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.