簡體 English 中英

價值迭代收斂

[英]Convergence of value iteration

原文 2013-11-11 01:16:01 4 1 algorithm/ artificial-intelligence/ iteration/ markov-chains/ convergence

為什么要采用值迭代算法的終止條件（例如http://aima-java.googlecode.com/svn/trunk/aima-core/src/main/java/aima/core/probability/mdp/search/ValueIteration.java ）

在MDP（馬爾可夫決策過程）中

|| Ui + 1-Ui || <錯誤*（1-gamma）/ gamma，其中

Ui是實用程序的載體
Ui + 1更新的實用程序向量

錯誤-算法中使用的錯誤界限

算法中使用的伽瑪折扣因子

“錯誤*（1-伽馬）/伽馬”從何而來？ “被伽馬划分”是因為每一步都被伽馬打折嗎？ 但是錯誤*（1-γ）？ 錯誤有多大？

1 個解決方案

這稱為“貝爾曼錯誤”或“貝爾曼殘差”。

在MDP中使用，請參見Williams和Baird ，1993。

參見Littman ，1994年在POMDP中的使用。

如何通過猜測Matlab中的值來實現此迭代/收斂步驟？

[英]How to implement this iteration/convergence step by guessing a value in Matlab?

如何獲得當前迭代中下一個迭代的值

[英]How to get value of next iteration in current iteration

馬爾可夫強化學習的擬合值迭代算法

[英]Fitted value iteration algorithm of Markov Reinforcement Learning

具有值迭代的馬爾可夫決策過程動態規划

[英]Dynamic Programming of Markov Decision Process with Value Iteration

理解馬爾可夫決策過程的值迭代算法

[英]Understanding The Value Iteration Algorithm of Markov Decision Processes

遺傳算法-收斂

[英]Genetic Algorithm - convergence

無約束優化方法及其收斂

[英]Unconstrained optimization methods and their convergence

遺傳算法：收斂問題

[英]Genetic algorithm: problem of convergence

感知器算法收斂性的幾何證明

[英]Geometric proof of Convergence of Perceptron Algorithm

依賴於收斂的算法的大O.

[英]Big O of an algorithm that relies on convergence

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何通過猜測Matlab中的值來實現此迭代/收斂步驟？如何獲得當前迭代中下一個迭代的值馬爾可夫強化學習的擬合值迭代算法具有值迭代的馬爾可夫決策過程動態規划理解馬爾可夫決策過程的值迭代算法遺傳算法-收斂無約束優化方法及其收斂遺傳算法：收斂問題感知器算法收斂性的幾何證明依賴於收斂的算法的大O.

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM