簡體 English 中英

什么時候應該重置蒙托卡羅樹搜索？

[英]When should a monto carlo tree search be reset?

原文 2023-01-10 16:54:43 3 1 reinforcement-learning/ monte-carlo-tree-search

我正在嘗試構建/理解蒙特卡洛樹搜索算法 (mcts) 如何與神經網絡結合使用以學習如何玩游戲（如國際象棋）。 但是我無法理解何時重置樹。

我以https://github.com/suragnair/alpha-zero-general為例。 但是對我來說，關於這個實現的一件事是它在每個單獨的游戲之后重置樹，這對我來說似乎不正確。 （所以每次制作新游戲時都會創建一棵新樹）。 我認為 mcts 的想法是在很多游戲中積累知識，並且只有在你訓練了你的網絡后才重置樹來預測每個棋盤狀態的新概率？

這是我誤解了 mcts 還是該特定實現中的錯誤？

1 個解決方案

我假設您在談論 AlphaZero，因為那是您鏈接到的回購所做的，但 MCTS 是一個更籠統的術語。

永遠保留舊的搜索樹並不實際，這會花費太多 memory 並且它們中的大多數最終不會再次被使用（因為在訓練過程中后期生成的游戲有望與早期的游戲看起來非常不同）。 重點是我們將通過樹搜索獲得的知識提取到神經網絡中，然后我們在未來的游戲中使用它來進行更好的樹搜索。

作為一個小的優化，為下一步移動保留樹，或者暫時緩存神經網絡輸出仍然是有意義的。 我假設這就是您在鏈接的回購協議中看到的內容。

了解蒙特卡羅樹搜索

[英]Understanding monte carlo tree search

Mone Carlo 樹搜索和終端節點處理

[英]Mone Carlo Tree Search and terminal Nodes handling

何時在TD學習上使用Monte Carlo，反之亦然

[英]When to use Monte Carlo over TD learning, and vice-versa

蒙特卡洛政策評估混亂

[英]Monte Carlo policy evaluation confusion

OpenAI gym：什么時候需要重置？

[英]OpenAI gym: when is reset required?

我可以將蒙特卡洛策略梯度算法與其他策略梯度算法結合起來嗎

[英]Can I combine Monte Carlo policy gradient algorithm with other policy gradient algorithms

用樹解決4個難題

[英]solving 4 puzzle with tree

是蒙特卡羅學習策略還是價值迭代（或其他）？

[英]Is Monte Carlo learning policy or value iteration (or something else)?

強化算法的簡單示例（蒙特卡羅策略梯度）

[英]Simple example of reinforce algorithm (monte-carlo policy gradient)

為什么要限制連續動作？

[英]Why should continuous actions be clamped?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 了解蒙特卡羅樹搜索 Mone Carlo 樹搜索和終端節點處理何時在TD學習上使用Monte Carlo，反之亦然蒙特卡洛政策評估混亂 OpenAI gym：什么時候需要重置？我可以將蒙特卡洛策略梯度算法與其他策略梯度算法結合起來嗎用樹解決4個難題是蒙特卡羅學習策略還是價值迭代（或其他）？強化算法的簡單示例（蒙特卡羅策略梯度）為什么要限制連續動作？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM