簡體 English 中英

強化學習中同一狀態的不同獎勵

[英]Different rewards for same state in reinforcement learning

原文 2017-04-15 13:07:12 6 1 machine-learning/ reinforcement-learning/ q-learning

我想為Chrome恐龍游戲（您離線時可以玩的那個）實施Q-Learning。

我將我的狀態定義為：到下一個障礙物的距離，速度和下一個障礙物的大小。

為了獎勵，我想使用成功通過障礙的數量，但可能會發生相同的狀態有不同的直接獎勵。 同樣類型的障礙可能會在游戲的后期重新出現，但是傳遞它的獎勵會更高，因為已經有更多的障礙。

我現在的問題是：這是一個問題還是Q-Learning仍然有效？ 如果不是有更好的方法嗎？

1 個解決方案

一個的定義MDP說，報酬r(s,a,s')被定義為用於采取動作的預期回報a在狀態s搜索狀態s' 。 這意味着給定(s,a,s')可以具有不變的獎勵，或者只要具有明確的期望，就可以獲得一些獎勵。 正如您所定義的那樣，獎勵與通過的障礙數量成正比。 因為游戲可以永遠持續下去，所以某些(s,a,s')的獎勵看起來像是自然數的總和。 這個系列有所不同，所以沒有期望。 在實踐中，如果你運行Q-learning，你可能會看到值函數發散（NaN值），但是學習中間的策略可能沒問題，因為增長最快的值將是最好的狀態動作對。

為避免這種情況，您應該選擇不同的獎勵功能。 您可以獎勵代理人在其死亡時獲得的分數（最終獎勵很高，否則為零）。 只要代理人別無選擇，只要向前邁進，你也會很好地給予生活獎勵（每一步都有小獎勵）。 只要將最高總獎勵分配給最長的運行（並且對(s,a,s')元組的獎勵的期望得到很好的定義）它就是好的。

標准化獎勵以在強化學習中產生回報

[英]Normalizing Rewards to Generate Returns in reinforcement learning

在強化學習中導致相同狀態的多個動作

[英]Multiple actions that lead to the same state in Reinforcement Learning

在每個州都處於終結狀態的強化學習

[英]Reinforcement Learning where every state is terminal

增強學習以獲取連續的狀態和動作空間

[英]Reinforcement learning for continuous state and action space

強化學習中的狀態依賴動作集

[英]State dependent action set in reinforcement learning

在任意較大的動作/狀態空間中進行強化學習

[英]Reinforcement Learning in arbitrarily large action/state spaces

DQN（強化學習）：狀態應該標准化嗎？

[英]DQN(Reinforcement learning) : should state be standardized?

在強化學習中，agent 和 environment 有不同的狀態還是只有一種狀態？

[英]In Reinforcement learning , do both agent and environment have different states or there is only one state?

[英]Reinforcement Learning

當行動不影響強化學習中的狀態時，這叫什么？

[英]What is it called when the action doesnt affect the state in reinforcement learning?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 標准化獎勵以在強化學習中產生回報在強化學習中導致相同狀態的多個動作在每個州都處於終結狀態的強化學習增強學習以獲取連續的狀態和動作空間強化學習中的狀態依賴動作集在任意較大的動作/狀態空間中進行強化學習 DQN（強化學習）：狀態應該標准化嗎？在強化學習中，agent 和 environment 有不同的狀態還是只有一種狀態？強化學習當行動不影響強化學習中的狀態時，這叫什么？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM