簡體   English   中英

沒有最終狀態的強化學習?

[英]Reinforcement Learning without a final state?

我在強化學習的主題中對我的案例有疑問。

我希望我們能夠接受兩種相互依賴的產品。 這意味着如果我改變產品A的價格,也許客戶會想要購買產品B.

在我的想象中,我需要一個強化學習算法。 國家將是A和B的實際價格(例如A:15€,B:12€)。

行動將是價格的可能變化(例如價格A - 2€)

所以本例中的下一個狀態是(A:13€,B:12€)

獎勵將是利潤差異或任何其他變量告訴我,價格變化是多么成功。

我現在的問題是:我沒有最終狀態,對吧? 我怎么可能處理這個? 我只想最大化獎勵。 強化學習是否是正確的方法還是有更適合我的東西?

在強制執行學習中不需要最終狀態,你只需要小心你的伽瑪調整。

我們可以獲得有關價格接受計算的更多信息嗎?

另外一件事,我真的沒有找到在您的問題中使用神經網絡的興趣,事實是您的目標是根據您的環境價格接受找到產品(A,B)的最佳價格。給你最好的利潤,但是當你發現這對夫婦時,無論網絡輸入是什么,最好的情侶仍然會是一樣的不是嗎?

我認為使用神經網絡和Q學習的興趣應該是,如果你給網絡輸入一些環境變量 ,除了當前的價格之外還有一些直接與價格接受相關的變量

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM