簡體   English   中英

價值迭代收斂

[英]Convergence of value iteration

為什么要采用值迭代算法的終止條件(例如http://aima-java.googlecode.com/svn/trunk/aima-core/src/main/java/aima/core/probability/mdp/search/ValueIteration.java

在MDP(馬爾可夫決策過程)中

|| Ui + 1-Ui || <錯誤*(1-gamma)/ gamma,其中

Ui是實用程序的載體
Ui + 1更新的實用程序向量

錯誤-算法中使用的錯誤界限

算法中使用的伽瑪折扣因子

“錯誤*(1-伽馬)/伽馬”從何而來? “被伽馬划分”是因為每一步都被伽馬打折嗎? 但是錯誤*(1-γ)? 錯誤有多大?

這稱為“貝爾曼錯誤”或“貝爾曼殘差”。

在MDP中使用,請參見Williams和Baird ,1993。

參見Littman ,1994年在POMDP中的使用。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM