簡體 English 中英

在強化學習中，agent 和 environment 有不同的狀態還是只有一種狀態？

[英]In Reinforcement learning , do both agent and environment have different states or there is only one state?

原文 2020-02-17 06:51:32 5 1 machine-learning/ reinforcement-learning/ markov-decision-process/ mdp

是環境狀態還是代理狀態？ 我在某處閱讀環境也有狀態。 兩者有何不同？

1 個解決方案

狀態代表從代理看到的環境。

如果你想說某個屬性是代理的一部分（假設你有一輛車並且你聲明它的速度屬於代理），那么狀態包含這個屬性但它是環境的一部分，因為你的代理存在於環境。

然后，當您有多個代理時，所有代理都可以通過狀態“可視化”環境，但每個代理都可能不同。

例如

如果您有多個機器人在打牌，則每個機器人將環境表示為可見的牌和它手中的牌。 因此，您的所有代理（機器人）將對環境有不同的感知，從而產生不同的狀態來表示它們。 在這種情況下，您可以說“代理的狀態”，這只是措辭問題。

強化學習中同一狀態的不同獎勵

[英]Different rewards for same state in reinforcement learning

強化學習適用於 RANDOM 環境嗎？

[英]Is reinforcement learning applicable to a RANDOM environment?

用於連續狀態，離散動作的強化學習算法

[英]Reinforcement learning algorithms for continuous states, discrete actions

在強化學習中定義狀態，Q和R矩陣

[英]Defining states, Q and R matrix in reinforcement learning

強化學習-如何擺脫“粘性”狀態？

[英]Reinforcement Learning - How to get out of 'sticky' states?

強化學習 - 當游戲的輸入只有像素時，我們如何決定對代理的獎勵？

[英]Reinforcement Learning - How to we decide the reward to the agent when the input to the game is only pixels?

在任意較大的動作/狀態空間中進行強化學習

[英]Reinforcement Learning in arbitrarily large action/state spaces

DQN（強化學習）：狀態應該標准化嗎？

[英]DQN(Reinforcement learning) : should state be standardized?

在每個州都處於終結狀態的強化學習

[英]Reinforcement Learning where every state is terminal

增強學習以獲取連續的狀態和動作空間

[英]Reinforcement learning for continuous state and action space

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 強化學習中同一狀態的不同獎勵強化學習適用於 RANDOM 環境嗎？用於連續狀態，離散動作的強化學習算法在強化學習中定義狀態，Q和R矩陣強化學習-如何擺脫“粘性”狀態？強化學習 - 當游戲的輸入只有像素時，我們如何決定對代理的獎勵？在任意較大的動作/狀態空間中進行強化學習 DQN（強化學習）：狀態應該標准化嗎？在每個州都處於終結狀態的強化學習增強學習以獲取連續的狀態和動作空間

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM