
[英]How to interpret the observations of RAM environments in OpenAI gym?
[英]Observations meaning - OpenAI Gym
我想知道OpenAI Gym( https://gym.openai.com/ )中CartPole-v0
观察的规格。
例如,在下面的代码输出observation
。 一个观察就像[-0.061586 -0.75893141 0.05793238 1.15547541]
我想知道这些数字是什么意思。 我想知道其他Environments
的规范,如MountainCar-v0
, MsPacman-v0
等。
我试着阅读https://github.com/openai/gym ,但我不知道。 你能告诉我如何知道规格吗?
import gym
env = gym.make('CartPole-v0')
for i_episode in range(20):
observation = env.reset()
for t in range(100):
env.render()
print(observation)
action = env.action_space.sample()
observation, reward, done, info = env.step(action)
if done:
print("Episode finished after {} timesteps".format(t+1))
break
(来自https://gym.openai.com/docs )
输出如下
[-0.061586 -0.75893141 0.05793238 1.15547541]
[-0.07676463 -0.95475889 0.08104189 1.46574644]
[-0.0958598 -1.15077434 0.11035682 1.78260485]
[-0.11887529 -0.95705275 0.14600892 1.5261692 ]
[-0.13801635 -0.7639636 0.1765323 1.28239155]
[-0.15329562 -0.57147373 0.20218013 1.04977545]
Episode finished after 14 timesteps
[-0.02786724 0.00361763 -0.03938967 -0.01611184]
[-0.02779488 -0.19091794 -0.03971191 0.26388759]
[-0.03161324 0.00474768 -0.03443415 -0.04105167]
OpenAI Gym中使用的观察空间与原始纸张不完全相同。 查看OpenAI的wiki以找到答案。 观察空间是一个四维空间,每个维度如下:
Num Observation Min Max 0 Cart Position -2.4 2.4 1 Cart Velocity -Inf Inf 2 Pole Angle ~ -41.8° ~ 41.8° 3 Pole Velocity At Tip -Inf Inf
在描述OpenAI Gym网站中每个环境的段落之后,您总是有一个详细解释环境的参考,例如,在CartPole-v0
的情况下,您可以在以下位置找到所有详细信息:
[Barto83] AG Barto,RS Sutton和CW Anderson,“可以解决困难学习控制问题的神经元自适应元素”,IEEE系统,人与控制论交易,1983。
在那篇论文中,你可以看到推车杆有四个状态变量:
因此, observation
只是一个具有四个状态变量值的向量。
同样,可以在中找到MountainCar-v0
的详细信息
[Moore90]一种用于机器人控制的摩尔,高效的基于记忆的学习,博士论文,剑桥大学,1990。
等等。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.