簡體   English   中英

蒙特卡洛樹搜索在玩的時候一直陷入無限循環(與訓練相反)

[英]Monte carlo tree search keeps getting stuck in an infinite loop when playing (as opposed to training)

我已經嘗試為一個簡單的棋盤游戲制作自己的蒙特卡洛樹搜索算法的實現,並且它在學習時似乎工作合理。 但是,當我從播放模式切換到競技場模式進行評估時,mcts 陷入無限循環。

這樣做的原因是,在學習它時,它會根據概率偽隨機選擇動作,但在競技場模式下,這會切換為選擇最有可能獲勝的動作。 不幸的是,在其中一個競技場游戲中,這似乎意味着游戲以循環結束,在該循環中達到某個棋盤狀態,然后在 n 個動作之后再次達到相同的棋盤狀態,並且在每 n 個動作之后再次...

我覺得我在 mcts 算法中缺少一個組件可以防止這種情況發生? 或者這是 mcts 的意圖,而是棋盤游戲的錯誤,棋盤游戲應該內置一個繪制機制來檢測此類事情?

這確實可以發生在強化學習中。 另一個症狀可能是特工並沒有真正嘗試結束游戲/劇集,但他們很容易做到甚至“獲勝”。

一些可能的解決方案:

  • 修改獎勵以對所有代理(或僅獲勝代理)進行更長時間的游戲給予一些小懲罰
  • 修改環境以在固定數量的游戲后終止並獲得一些固定獎勵,可能是獎勵為零的平局。

這些作品的某種組合,后者充當故障保險,前者在情節中作為輕微的鼓勵,試圖取得進展。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM