簡體   English   中英

為什么蒙特卡羅樹搜索重置樹

[英]Why does Monte Carlo Tree Search reset Tree

關於蒙特卡羅樹搜索,我有一個小但可能很愚蠢的問題。 我理解其中的大部分內容,但一直在查看一些實現,並注意到在MCTS針對給定狀態運行並且返回了最佳移動之后,該樹被丟棄。 因此,對於下一步行動,我們必須在這個新狀態下從零開始運行MCTS以獲得下一個最佳位置。

我只是想知道為什么我們不保留舊樹的一些信息。 似乎有關於舊樹中狀態的有價值信息,特別是考慮到最佳移動是MCTS最常探索的移動。 有什么特別的原因我們不能以某種有用的方式使用這些舊信息嗎?

一些實現確實保留了信息。

例如, AlphaGo Zero論文說:

在隨后的時間步驟中重用搜索樹:對應於播放的動作的子節點成為新的根節點; 此子項下面的子樹及其所有統計信息都會保留,而樹的其余部分將被丟棄

那么原因可能如下。

推出是截斷值估計,丟棄最大長度后的貢獻。

假設最大滾出深度為N.

如果你考慮一個平均獎勵的環境!= 0(假設> 0)。

在采取動作並獲得觀察之后,可以選擇樹的子節點。

現在,分支的最大長度和分離到節點值評估的卷展欄的最大長度是N-1,因為根節點已被丟棄。

然而,新的模擬顯然仍然具有長度N,但它們必須與長度為N-1的模擬相結合。

較長的模擬將具有偏差值,因為平均獎勵是!= 0

這意味着使用混合長度評估評估節點將具有取決於具有不同長度的模擬的比率的偏差。

避免回收長度較短的舊模擬的另一個原因是由於采樣引起的偏差。 想象一下T迷宮,其中左邊的深度d有最大獎勵= R / 2,而在深度= d + 1時,右邊有一個最大獎勵= R. 左邊的所有路徑在第一步中都能夠達到深度為d的R / 2獎勵,在第二步中使用再生樹將受到青睞,而右邊的路徑將不太常見,並且將有更高的機會達到獎勵R.從空樹開始將給迷宮兩側提供相同的概率。

Alpha Go Zero(參見Peter de Rivaz的回答)實際上不使用推出但使用值approaximation(由深度網絡生成)。 值不是截斷的估計值。 因此,Alpha Go Zero不受此分支長度偏差的影響。

Alpha Go Zero的前身Alpha Go將滾動和值近似結合起來並重新使用了樹..但是沒有新版本不使用推出......可能就是這個原因。 Alpha Go Zero和Alpha Go也不使用動作的值,而是使用搜索期間選擇的次數。 該值可能受長度偏差的影響較小,至少在平均獎勵為負的情況下

希望這很清楚..

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM