![](/img/trans.png)
[英]How to implement this iteration/convergence step by guessing a value in Matlab?
[英]Convergence of value iteration
為什么要采用值迭代算法的終止條件(例如http://aima-java.googlecode.com/svn/trunk/aima-core/src/main/java/aima/core/probability/mdp/search/ValueIteration.java )
在MDP(馬爾可夫決策過程)中
|| Ui + 1-Ui || <錯誤*(1-gamma)/ gamma,其中
Ui是實用程序的載體
Ui + 1更新的實用程序向量
錯誤-算法中使用的錯誤界限
算法中使用的伽瑪折扣因子
“錯誤*(1-伽馬)/伽馬”從何而來? “被伽馬划分”是因為每一步都被伽馬打折嗎? 但是錯誤*(1-γ)? 錯誤有多大?
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.