簡體   English   中英

為什么環境狀態為markov?

[英]Why is the environment state markov?

我有一個與強化學習有關的問題,為什么環境狀態為markov? 我在定義的地方讀過它,但我不明白環境狀態的定義如何暗示那是馬爾科夫。

不一定,但是一般而言,強化學習算法假定您提供了馬爾可夫狀態。

從《 強化學習:入門》第3.5章開始:

理想情況下,我們想要的是一種狀態信號,該狀態信號可以緊湊地總結過去的感覺,但要保留所有相關信息。 通常,這不僅需要立即產生的感覺,而且還需要超過所有過去感覺的完整歷史。 可以成功保留所有相關信息的狀態信號稱為Markov或具有Markov屬性(我們在下面正式定義)。

當然,您不可能提供完美的馬爾可夫狀態表示並實際學習。

馬爾可夫性質在強化學習中很重要,因為假定決策和值僅是當前狀態的函數。 為了使這些內容有效且具有信息性,狀態表示必須具有信息性。 這意味着並非所有理論都嚴格適用於馬爾可夫性質不嚴格適用的情況。 但是,針對馬爾可夫案例開發的理論仍然可以幫助我們理解算法的行為,並且該算法可以成功地應用於狀態嚴格不為馬爾可夫的許多任務

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM