簡體 English 中英

蒙特卡洛政策評估混亂

[英]Monte Carlo policy evaluation confusion

原文 2017-03-16 00:26:54 4 1 montecarlo/ reinforcement-learning

我在理解蒙特卡洛政策評估算法時遇到了麻煩。 我正在讀的是G是第一次訪問特定狀態后的平均回報，可以說s1 。 這是否意味着對從狀態s1到情節結束的所有獎勵進行平均，然后將結果值分配給s1 ？ 還是這意味着在多個情節中平均要在s1采取行動所獲得的即時獎勵？

1 個解決方案

蒙特卡洛政策評估的目的是找到給定政策π的價值函數。 保單的價值函數只是告訴我們，處於某種狀態，然后一直遵循保單或直到情節結束，將會產生預期的累積折扣獎勵。 它告訴我們一個狀態的預期收益 。

因此，采用蒙特卡洛方法估算此價值函數的方法是簡單地運行策略並跟蹤每個州的收益。 當我第一次進入狀態時，在接下來的劇集中我會累積多少折扣獎勵？ 將您觀察到的所有結果取平均值（您訪問的每個狀態，運行的每個情節都會有一個回報）。

這是否意味着對從狀態s1到情節結束的所有獎勵進行平均，然后將結果值分配給s1 ？ 還是這意味着在多個情節中平均要在s1采取行動所獲得的即時獎勵？

因此，您的第一個想法是正確的。

蒙特卡洛樹搜索：兩人游戲的樹策略

[英]Monte Carlo Tree Search: Tree Policy for two player games

強化算法的簡單示例（蒙特卡羅策略梯度）

[英]Simple example of reinforce algorithm (monte-carlo policy gradient)

我可以將蒙特卡洛策略梯度算法與其他策略梯度算法結合起來嗎

[英]Can I combine Monte Carlo policy gradient algorithm with other policy gradient algorithms

蒙特卡洛皮（Monte Carlo Pi）不准確

[英]Monte Carlo Pi not accurate

蒙特卡洛誤差

[英]Monte Carlo error

蒙特卡洛樹搜索

[英]Monte Carlo tree search

蒙特卡羅整合不起作用？

[英]Monte carlo integration not working?

蒙特卡洛-均勻分布

[英]Monte Carlo - Uniform Distribution

蒙特卡洛模擬python

[英]monte carlo simulation python

蒙特卡洛多重分布

[英]Monte Carlo Multiple Distributions

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 蒙特卡洛樹搜索：兩人游戲的樹策略強化算法的簡單示例（蒙特卡羅策略梯度）我可以將蒙特卡洛策略梯度算法與其他策略梯度算法結合起來嗎蒙特卡洛皮（Monte Carlo Pi）不准確蒙特卡洛誤差蒙特卡洛樹搜索蒙特卡羅整合不起作用？蒙特卡洛-均勻分布蒙特卡洛模擬python 蒙特卡洛多重分布

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM