繁体   English   中英

没有最终状态的强化学习?

[英]Reinforcement Learning without a final state?

我在强化学习的主题中对我的案例有疑问。

我希望我们能够接受两种相互依赖的产品。 这意味着如果我改变产品A的价格,也许客户会想要购买产品B.

在我的想象中,我需要一个强化学习算法。 国家将是A和B的实际价格(例如A:15€,B:12€)。

行动将是价格的可能变化(例如价格A - 2€)

所以本例中的下一个状态是(A:13€,B:12€)

奖励将是利润差异或任何其他变量告诉我,价格变化是多么成功。

我现在的问题是:我没有最终状态,对吧? 我怎么可能处理这个? 我只想最大化奖励。 强化学习是否是正确的方法还是有更适合我的东西?

在强制执行学习中不需要最终状态,你只需要小心你的伽玛调整。

我们可以获得有关价格接受计算的更多信息吗?

另外一件事,我真的没有找到在您的问题中使用神经网络的兴趣,事实是您的目标是根据您的环境价格接受找到产品(A,B)的最佳价格。给你最好的利润,但是当你发现这对夫妇时,无论网络输入是什么,最好的情侣仍然会是一样的不是吗?

我认为使用神经网络和Q学习的兴趣应该是,如果你给网络输入一些环境变量 ,除了当前的价格之外还有一些直接与价格接受相关的变量

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM