簡體 English 中英

進一步了解馬爾可夫性質

[英]Understanding Markov Property further

原文 2022-09-23 04:02:05 3 1 reinforcement-learning

我在研究強化學習中的馬爾可夫特性，這應該是該領域的重要假設之一。 它說，在考慮未來的可能性時，我們只考慮現在的 state 和行動，而不考慮過去的行動。 當我們考慮給定未來狀態/動作的當前 state 的概率時出現的一個重要推論，未來狀態/動作不能被忽略，因為它在當前概率的計算中具有有價值的信息。

我不明白這第二個說法。 從未來事件的角度來看，現在的事件似乎是這個未來事件的過去。 那我們為什么要考慮這個過去的事件呢？

1 個解決方案

讓我們分別關注這兩個句子。 馬爾可夫屬性（應該適用於您的問題，但實際上不必如此）表示當前 state 是您做出決定所需的全部內容（例如棋盤的“屏幕截圖” - 又名觀察是做出最佳操作所需的全部內容）。另一方面，如果您需要查看一些舊的 state（或觀察）以了解當前 state 中未暗示的內容，則不滿足馬爾可夫屬性（例如，您通常不能使用單個框架videogame as a state，因為您可能會丟失有關某些移動物體的速度和加速度的信息。這也是人們使用幀堆疊來“解決”使用 RL 的視頻游戲的原因）。

現在，關於似乎被視為過去事件的未來事件：當代理采取行動時，它從一個 state 移動到另一個。 請記住，在 RL 中，您希望最大化累積獎勵，即所有長期獎勵的總和。 這也意味着如果這意味着獲得更好的“未來”（長期）獎勵，你基本上想要采取行動甚至犧牲即時的“好”獎勵（例如，如果這允許敵人在下一步中檢查你）。 這就是為什么在 RL 中我們嘗試估計價值函數（狀態和/或動作）。 State 價值函數是分配給 state 的值，它應該代表 state 從長遠來看有多好。

代理人應該如何知道未來的獎勵（也就是計算這些價值函數）？ 通過探索許多狀態並采取隨機行動（字面意思是反復試驗）。 因此，當 agent 處於某種“state1”並且必須在采取行動 A 和行動 B 之間做出選擇時，他不會選擇給他最好的瞬時獎勵的那個，而是讓他獲得更好獎勵的那個“ long-term”，即action-value較大的action，它不僅會考慮他從state1過渡到下一個state所獲得的瞬時獎勵，還會考慮下一個state的價值函數，因此，那句話中的未來事件可能看起來被認為是過去的事件，因為估計值 function 需要你在過去的迭代中多次處於那些“未來狀態”！

希望我有所幫助

為什么要將馬爾可夫屬性引入強化學習？

[英]Why introduce Markov property to reinforcement learning?

為什么環境狀態為markov？

[英]Why is the environment state markov?

Java中的馬爾可夫模型決策過程

[英]Markov Model descision process in Java

馬爾可夫強化學習的擬合值迭代算法

[英]Fitted value iteration algorithm of Markov Reinforcement Learning

值迭代不收斂-馬爾可夫決策過程

[英]Value iteration not converging - Markov decision process

具有值迭代的馬爾可夫決策過程動態規划

[英]Dynamic Programming of Markov Decision Process with Value Iteration

減少強化學習中馬爾可夫狀態的數量

[英]Reducing the number of markov-states in reinforcement learning

馬爾可夫決策過程中的建模動作使用限制

[英]Modelling action use limit in Markov Decision Process

有人可以用一個例子解釋部分可觀察的馬爾可夫決策過程（POMDP）嗎？

[英]Can someone explain partially observable Markov decision process (POMDP) with an example?

部分可觀察的馬爾可夫決策過程最優值函數

[英]Partially Observable Markov Decision Process Optimal Value function

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 為什么要將馬爾可夫屬性引入強化學習？為什么環境狀態為markov？ Java中的馬爾可夫模型決策過程馬爾可夫強化學習的擬合值迭代算法值迭代不收斂-馬爾可夫決策過程具有值迭代的馬爾可夫決策過程動態規划減少強化學習中馬爾可夫狀態的數量馬爾可夫決策過程中的建模動作使用限制有人可以用一個例子解釋部分可觀察的馬爾可夫決策過程（POMDP）嗎？部分可觀察的馬爾可夫決策過程最優值函數

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM