簡體 English 中英

為什么蒙特卡羅樹搜索重置樹

[英]Why does Monte Carlo Tree Search reset Tree

原文 2017-11-20 10:18:48 0 2 algorithm/ artificial-intelligence/ montecarlo

關於蒙特卡羅樹搜索，我有一個小但可能很愚蠢的問題。 我理解其中的大部分內容，但一直在查看一些實現，並注意到在MCTS針對給定狀態運行並且返回了最佳移動之后，該樹被丟棄。 因此，對於下一步行動，我們必須在這個新狀態下從零開始運行MCTS以獲得下一個最佳位置。

我只是想知道為什么我們不保留舊樹的一些信息。 似乎有關於舊樹中狀態的有價值信息，特別是考慮到最佳移動是MCTS最常探索的移動。 有什么特別的原因我們不能以某種有用的方式使用這些舊信息嗎？

2 個解決方案

一些實現確實保留了信息。

例如， AlphaGo Zero論文說：

在隨后的時間步驟中重用搜索樹：對應於播放的動作的子節點成為新的根節點; 此子項下面的子樹及其所有統計信息都會保留，而樹的其余部分將被丟棄

那么原因可能如下。

推出是截斷值估計，丟棄最大長度后的貢獻。

假設最大滾出深度為N.

如果你考慮一個平均獎勵的環境！= 0（假設> 0）。

在采取動作並獲得觀察之后，可以選擇樹的子節點。

現在，分支的最大長度和分離到節點值評估的卷展欄的最大長度是N-1，因為根節點已被丟棄。

然而，新的模擬顯然仍然具有長度N，但它們必須與長度為N-1的模擬相結合。

較長的模擬將具有偏差值，因為平均獎勵是！= 0

這意味着使用混合長度評估評估節點將具有取決於具有不同長度的模擬的比率的偏差。

避免回收長度較短的舊模擬的另一個原因是由於采樣引起的偏差。 想象一下T迷宮，其中左邊的深度d有最大獎勵= R / 2，而在深度= d + 1時，右邊有一個最大獎勵= R. 左邊的所有路徑在第一步中都能夠達到深度為d的R / 2獎勵，在第二步中使用再生樹將受到青睞，而右邊的路徑將不太常見，並且將有更高的機會達到獎勵R.從空樹開始將給迷宮兩側提供相同的概率。

Alpha Go Zero（參見Peter de Rivaz的回答）實際上不使用推出但使用值approaximation（由深度網絡生成）。 值不是截斷的估計值。 因此，Alpha Go Zero不受此分支長度偏差的影響。

Alpha Go Zero的前身Alpha Go將滾動和值近似結合起來並重新使用了樹..但是沒有新版本不使用推出......可能就是這個原因。 Alpha Go Zero和Alpha Go也不使用動作的值，而是使用搜索期間選擇的次數。 該值可能受長度偏差的影響較小，至少在平均獎勵為負的情況下

希望這很清楚..

為什么蒙特卡洛樹搜索的 UCB 公式中有對數（和平方根）？

[英]Why is there logarithm (and the square root) in the UCB formula of Monte Carlo Tree Search?

如何理解蒙特卡洛樹搜索的 4 個步驟

[英]How to understand the 4 steps of Monte Carlo Tree Search

如何在實踐中實施蒙特卡洛樹搜索

[英]How is Monte Carlo Tree Search implemented in practice

蒙特卡洛樹搜索：兩人游戲的樹策略

[英]Monte Carlo Tree Search: Tree Policy for two player games

蒙特卡羅樹搜索：對手在MCTS樹邊界之前移動

[英]Monte Carlo Tree Search: Opponent moves before MCTS tree border

蒙特卡羅樹搜索，反向傳播（備份）步驟：為什么要改變獎勵價值的視角？

[英]Monte Carlo Tree Search, Backpropagation (Backup) step: Why change perspective of reward value?

蒙特卡洛樹搜索：Tic-Tac-Toe的實施

[英]Monte Carlo Tree Search: Implementation for Tic-Tac-Toe

分數在0到n之間時用於蒙特卡洛樹搜索的UCB公式

[英]UCB formula for monte carlo tree search when score is between 0 and n

蒙特卡洛樹搜索Tic-Tac-Toe - 可憐的特工

[英]Monte Carlo Tree Search Tic-Tac-Toe — Poor Agent

棋類游戲中的蒙特卡洛樹搜索-如何實施對手移動

[英]Monte Carlo Tree Search in board games - How to Implement Opponent Moves

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 為什么蒙特卡洛樹搜索的 UCB 公式中有對數（和平方根）？如何理解蒙特卡洛樹搜索的 4 個步驟如何在實踐中實施蒙特卡洛樹搜索蒙特卡洛樹搜索：兩人游戲的樹策略蒙特卡羅樹搜索：對手在MCTS樹邊界之前移動蒙特卡羅樹搜索，反向傳播（備份）步驟：為什么要改變獎勵價值的視角？蒙特卡洛樹搜索：Tic-Tac-Toe的實施分數在0到n之間時用於蒙特卡洛樹搜索的UCB公式蒙特卡洛樹搜索Tic-Tac-Toe - 可憐的特工棋類游戲中的蒙特卡洛樹搜索-如何實施對手移動

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM