簡體 English 中英

沒有最終狀態的強化學習？

[英]Reinforcement Learning without a final state?

原文 2019-05-22 14:33:05 6 1 python/ reinforcement-learning/ q-learning

我在強化學習的主題中對我的案例有疑問。

我希望我們能夠接受兩種相互依賴的產品。 這意味着如果我改變產品A的價格，也許客戶會想要購買產品B.

在我的想象中，我需要一個強化學習算法。 國家將是A和B的實際價格（例如A：15€，B：12€）。

行動將是價格的可能變化（例如價格A - 2€）

所以本例中的下一個狀態是（A：13€，B：12€）

獎勵將是利潤差異或任何其他變量告訴我，價格變化是多么成功。

我現在的問題是：我沒有最終狀態，對吧？ 我怎么可能處理這個？ 我只想最大化獎勵。 強化學習是否是正確的方法還是有更適合我的東西？

1 個解決方案

在強制執行學習中不需要最終狀態，你只需要小心你的伽瑪調整。

我們可以獲得有關價格接受計算的更多信息嗎？

另外一件事，我真的沒有找到在您的問題中使用神經網絡的興趣，事實是您的目標是根據您的環境價格接受找到產品（A，B）的最佳價格。給你最好的利潤，但是當你發現這對夫婦時，無論網絡輸入是什么，最好的情侶仍然會是一樣的不是嗎？

我認為使用神經網絡和Q學習的興趣應該是，如果你給網絡輸入一些環境變量 ，除了當前的價格之外還有一些直接與價格接受相關的變量。

沒有 Gym 的 Tensorflow 上的強化學習

[英]Reinforcement Learning on Tensorflow without Gym

DQN（強化學習）：狀態應該標准化嗎？

[英]DQN(Reinforcement learning) : should state be standardized?

增強學習以獲取連續的狀態和動作空間

[英]Reinforcement learning for continuous state and action space

強化學習中如何處理不同的狀態空間大小？

[英]How to deal with different state space size in reinforcement learning?

在為強化學習設計網格世界時如何表示狀態空間

[英]How to represent state space when designing a grid world for reinforcement learning

強化學習，鍾擺蟒蛇

[英]Reinforcement learning, pendulum python

強化學習中的負面獎勵

[英]Negative reward in reinforcement learning

強化學習中的時間步長

[英]Time step in reinforcement learning

簡單的界面用於強化學習

[英]Simple interface for reinforcement learning

監督數據集上的強化學習

[英]Reinforcement Learning on a Supervised Dataset

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 沒有 Gym 的 Tensorflow 上的強化學習 DQN（強化學習）：狀態應該標准化嗎？增強學習以獲取連續的狀態和動作空間強化學習中如何處理不同的狀態空間大小？在為強化學習設計網格世界時如何表示狀態空間強化學習，鍾擺蟒蛇強化學習中的負面獎勵強化學習中的時間步長簡單的界面用於強化學習監督數據集上的強化學習

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM