[英]Monte Carlo policy evaluation confusion
我在理解蒙特卡洛政策評估算法時遇到了麻煩。 我正在讀的是G
是第一次訪問特定狀態后的平均回報,可以說s1
。 這是否意味着對從狀態s1
到情節結束的所有獎勵進行平均,然后將結果值分配給s1
? 還是這意味着在多個情節中平均要在s1
采取行動所獲得的即時獎勵?
蒙特卡洛政策評估的目的是找到給定政策π的價值函數。 保單的價值函數只是告訴我們,處於某種狀態,然后一直遵循保單或直到情節結束,將會產生預期的累積折扣獎勵。 它告訴我們一個狀態的預期收益 。
因此,采用蒙特卡洛方法估算此價值函數的方法是簡單地運行策略並跟蹤每個州的收益。 當我第一次進入狀態時,在接下來的劇集中我會累積多少折扣獎勵? 將您觀察到的所有結果取平均值(您訪問的每個狀態,運行的每個情節都會有一個回報)。
這是否意味着對從狀態
s1
到情節結束的所有獎勵進行平均,然后將結果值分配給s1
? 還是這意味着在多個情節中平均要在s1
采取行動所獲得的即時獎勵?
因此,您的第一個想法是正確的。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.