繁体 English 中英

当行动不影响强化学习中的状态时，这叫什么？

[英]What is it called when the action doesnt affect the state in reinforcement learning?

原文 2018-05-19 01:35:38 0 1 machine-learning/ reinforcement-learning

在强化学习中，是否有一种算法的名称，其中所采取的动作不会影响状态？ 例如武装匪徒

1 个解决方案

在RL环境中，武装匪徒被认为是无国籍的，因此自然而然的行动不会影响国家。 只有行动和回报。

如果添加一个状态，但是这些动作对下一个状态没有影响，则称为上下文强盗。 上下文强盗具有状态，动作和奖励。 您的状态（或“上下文”）可能会影响您的操作，但不会反过来，即没有像普通RL中那样的转换规则。

增强学习以获取连续的状态和动作空间

[英]Reinforcement learning for continuous state and action space

强化学习中的状态依赖动作集

[英]State dependent action set in reinforcement learning

在任意较大的动作/状态空间中进行强化学习

[英]Reinforcement Learning in arbitrarily large action/state spaces

什么是强化机器学习？

[英]What is Reinforcement machine learning?

为什么 RL 被称为“强化”学习？

[英]Why is RL called 'reinforcement' learning?

在强化学习中将离散动作转换为连续动作

[英]Transfer Discrete action to Continuous action in Reinforcement Learning

为什么老虎机问题在强化学习中也称为一步/状态 MDP？

[英]Why the bandit problem is also called a one-step/state MDP in Reinforcement learning?

基于模型的大状态和动作空间强化学习算法的推广

[英]Generalizing the Policy for Model-based reinforcement learning algorithm with large state and action spaces

强化学习：为连续动作和连续状态空间选择离散化步骤和性能指标的困境

[英]Reinforcement Learning: The dilemma of choosing discretization steps and performance metrics for continuous action and continuous state space

在每个州都处于终结状态的强化学习

[英]Reinforcement Learning where every state is terminal

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 增强学习以获取连续的状态和动作空间强化学习中的状态依赖动作集在任意较大的动作/状态空间中进行强化学习什么是强化机器学习？为什么 RL 被称为“强化”学习？在强化学习中将离散动作转换为连续动作为什么老虎机问题在强化学习中也称为一步/状态 MDP？基于模型的大状态和动作空间强化学习算法的推广强化学习：为连续动作和连续状态空间选择离散化步骤和性能指标的困境在每个州都处于终结状态的强化学习

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM