簡體   English   中英

進一步了解馬爾可夫性質

[英]Understanding Markov Property further

我在研究強化學習中的馬爾可夫特性,這應該是該領域的重要假設之一。 它說,在考慮未來的可能性時,我們只考慮現在的 state 和行動,而不考慮過去的行動。 當我們考慮給定未來狀態/動作的當前 state 的概率時出現的一個重要推論,未來狀態/動作不能被忽略,因為它在當前概率的計算中具有有價值的信息。

我不明白這第二個說法。 從未來事件的角度來看,現在的事件似乎是這個未來事件的過去。 那我們為什么要考慮這個過去的事件呢?

讓我們分別關注這兩個句子。 馬爾可夫屬性(應該適用於您的問題,但實際上不必如此)表示當前 state 是您做出決定所需的全部內容(例如棋盤的“屏幕截圖” - 又名觀察是做出最佳操作所需的全部內容)。 另一方面,如果您需要查看一些舊的 state(或觀察)以了解當前 state 中未暗示的內容,則不滿足馬爾可夫屬性(例如,您通常不能使用單個框架videogame as a state,因為您可能會丟失有關某些移動物體的速度和加速度的信息。這也是人們使用幀堆疊來“解決”使用 RL 的視頻游戲的原因)。

現在,關於似乎被視為過去事件的未來事件:當代理采取行動時,它從一個 state 移動到另一個。 請記住,在 RL 中,您希望最大化累積獎勵,即所有長期獎勵的總和。 這也意味着如果這意味着獲得更好的“未來”(長期)獎勵,你基本上想要采取行動甚至犧牲即時的“好”獎勵(例如,如果這允許敵人在下一步中檢查你)。 這就是為什么在 RL 中我們嘗試估計價值函數(狀態和/或動作)。 State 價值函數是分配給 state 的值,它應該代表 state 從長遠來看有多好。

代理人應該如何知道未來的獎勵(也就是計算這些價值函數)? 通過探索許多狀態並采取隨機行動(字面意思是反復試驗)。 因此,當 agent 處於某種“state1”並且必須在采取行動 A 和行動 B 之間做出選擇時,他不會選擇給他最好的瞬時獎勵的那個,而是讓他獲得更好獎勵的那個“ long-term”,即action-value較大的action,它不僅會考慮他從state1過渡到下一個state所獲得的瞬時獎勵,還會考慮下一個state的價值函數,因此,那句話中的未來事件可能看起來被認為是過去的事件,因為估計值 function 需要你在過去的迭代中多次處於那些“未來狀態”!

希望我有所幫助

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM