繁体 English 中英

没有最终状态的强化学习？

[英]Reinforcement Learning without a final state?

原文 2019-05-22 14:33:05 0 1 python/ reinforcement-learning/ q-learning

我在强化学习的主题中对我的案例有疑问。

我希望我们能够接受两种相互依赖的产品。 这意味着如果我改变产品A的价格，也许客户会想要购买产品B.

在我的想象中，我需要一个强化学习算法。 国家将是A和B的实际价格（例如A：15€，B：12€）。

行动将是价格的可能变化（例如价格A - 2€）

所以本例中的下一个状态是（A：13€，B：12€）

奖励将是利润差异或任何其他变量告诉我，价格变化是多么成功。

我现在的问题是：我没有最终状态，对吧？ 我怎么可能处理这个？ 我只想最大化奖励。 强化学习是否是正确的方法还是有更适合我的东西？

1 个解决方案

在强制执行学习中不需要最终状态，你只需要小心你的伽玛调整。

我们可以获得有关价格接受计算的更多信息吗？

另外一件事，我真的没有找到在您的问题中使用神经网络的兴趣，事实是您的目标是根据您的环境价格接受找到产品（A，B）的最佳价格。给你最好的利润，但是当你发现这对夫妇时，无论网络输入是什么，最好的情侣仍然会是一样的不是吗？

我认为使用神经网络和Q学习的兴趣应该是，如果你给网络输入一些环境变量 ，除了当前的价格之外还有一些直接与价格接受相关的变量。

没有 Gym 的 Tensorflow 上的强化学习

[英]Reinforcement Learning on Tensorflow without Gym

DQN（强化学习）：状态应该标准化吗？

[英]DQN(Reinforcement learning) : should state be standardized?

增强学习以获取连续的状态和动作空间

[英]Reinforcement learning for continuous state and action space

强化学习中如何处理不同的状态空间大小？

[英]How to deal with different state space size in reinforcement learning?

在为强化学习设计网格世界时如何表示状态空间

[英]How to represent state space when designing a grid world for reinforcement learning

强化学习，钟摆蟒蛇

[英]Reinforcement learning, pendulum python

强化学习中的负面奖励

[英]Negative reward in reinforcement learning

强化学习中的时间步长

[英]Time step in reinforcement learning

简单的界面用于强化学习

[英]Simple interface for reinforcement learning

监督数据集上的强化学习

[英]Reinforcement Learning on a Supervised Dataset

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 没有 Gym 的 Tensorflow 上的强化学习 DQN（强化学习）：状态应该标准化吗？增强学习以获取连续的状态和动作空间强化学习中如何处理不同的状态空间大小？在为强化学习设计网格世界时如何表示状态空间强化学习，钟摆蟒蛇强化学习中的负面奖励强化学习中的时间步长简单的界面用于强化学习监督数据集上的强化学习

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM