簡體 English 中英

蒙特卡洛樹搜索在玩的時候一直陷入無限循環（與訓練相反）

[英]Monte carlo tree search keeps getting stuck in an infinite loop when playing (as opposed to training)

原文 2023-01-12 02:35:55 6 1 monte-carlo-tree-search

我已經嘗試為一個簡單的棋盤游戲制作自己的蒙特卡洛樹搜索算法的實現，並且它在學習時似乎工作合理。 但是，當我從播放模式切換到競技場模式進行評估時，mcts 陷入無限循環。

這樣做的原因是，在學習它時，它會根據概率偽隨機選擇動作，但在競技場模式下，這會切換為選擇最有可能獲勝的動作。 不幸的是，在其中一個競技場游戲中，這似乎意味着游戲以循環結束，在該循環中達到某個棋盤狀態，然后在 n 個動作之后再次達到相同的棋盤狀態，並且在每 n 個動作之后再次...

我覺得我在 mcts 算法中缺少一個組件可以防止這種情況發生？ 或者這是 mcts 的意圖，而是棋盤游戲的錯誤，棋盤游戲應該內置一個繪制機制來檢測此類事情？

1 個解決方案

這確實可以發生在強化學習中。 另一個症狀可能是特工並沒有真正嘗試結束游戲/劇集，但他們很容易做到甚至“獲勝”。

一些可能的解決方案：

修改獎勵以對所有代理（或僅獲勝代理）進行更長時間的游戲給予一些小懲罰
修改環境以在固定數量的游戲后終止並獲得一些固定獎勵，可能是獎勵為零的平局。

這些作品的某種組合，后者充當故障保險，前者在情節中作為輕微的鼓勵，試圖取得進展。

蒙特卡羅樹搜索擴展

[英]Monte Carlo Tree Search Expansion

分數在0到n之間時用於蒙特卡洛樹搜索的UCB公式

[英]UCB formula for monte carlo tree search when score is between 0 and n

蒙特卡羅搜索樹如何運作？

[英]How does Monte Carlo Search Tree work?

如何理解蒙特卡洛樹搜索的 4 個步驟

[英]How to understand the 4 steps of Monte Carlo Tree Search

蒙特卡羅樹搜索交替

[英]Monte Carlo Tree Search Alternating

蒙特卡洛樹搜索：從部署中獲取價值

[英]Monte Carlo Tree Search: Getting a value from the rollout

如何在實踐中實施蒙特卡洛樹搜索

[英]How is Monte Carlo Tree Search implemented in practice

在計算先前的bestMove時，是否應使用Monte Carlo樹來提供下一個Monte Carlo搜索？

[英]Should the Monte Carlo tree in calculating the previous bestMove be used to feed the next Monte Carlo search?

在基於模型的強化學習任務中加速蒙特卡羅樹搜索的方法

[英]Ways to speed up Monte Carlo Tree Search in a model-based RL task

隔離游戲中的蒙特卡羅樹搜索代理 - 調試建議

[英]Monte Carlo Tree Search agent in a game of Isolation - Debug Suggestions

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 蒙特卡羅樹搜索擴展分數在0到n之間時用於蒙特卡洛樹搜索的UCB公式蒙特卡羅搜索樹如何運作？如何理解蒙特卡洛樹搜索的 4 個步驟蒙特卡羅樹搜索交替蒙特卡洛樹搜索：從部署中獲取價值如何在實踐中實施蒙特卡洛樹搜索在計算先前的bestMove時，是否應使用Monte Carlo樹來提供下一個Monte Carlo搜索？在基於模型的強化學習任務中加速蒙特卡羅樹搜索的方法隔離游戲中的蒙特卡羅樹搜索代理 - 調試建議

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM