繁体   English   中英

多智能体强化学习环境 公共交通问题

[英]Multi-agent reinforcement learning environment Public transport problem

对于我的 Msc 论文,我想将多代理 RL 应用于总线控制问题。 这个想法是公共汽车在给定的线路上运行,但没有时间表。 公交车应该有公交车站,乘客随着时间的推移积累并接他们,公交车之间的间隔越长,在车站等待的乘客就越多(平均而言,这是一个随机过程)。 我还想实现一些交叉路口,公交车必须等待绿灯。

我还不确定我的奖励函数会是什么样子,但它会尽可能保持公共汽车之间的间隔或最小化乘客的总旅行时间。

问题中的代理将是公共汽车,但也包括交通灯。 交通信号灯可以选择何时为哪条道路亮绿灯:除了公交车,他们还有其他需要处理的需求。 公交车可以选择加速、减速、在车站等待更长时间或以正常速度继续行驶。

为了能够将这个问题放在 RL 框架中,我需要一个环境和合适的 RL 算法。 理想情况下,我会有一个灵活的模拟环境来重新创建我的案例研究总线并将其连接到现成的 RL 算法。 但是,到目前为止我还没有找到这个。 这意味着我可能必须自己将模拟环境连接到 OpenAI 健身房之类的东西。

有没有人建议适合哪种模拟环境? 如果有可能将其连接到现成的 RL 算法?

我觉得用 Python 编程最舒服,但其他语言也是一种选择(但这意味着我需要付出相当大的额外努力)。

到目前为止,我发现了以下可能适合的模拟环境:

网络标志
简单的
台面
MATSim ( https://www.matsim.org )
MATLAB
CityFlow ( https://cityflow-project.github.io/#about )
Flatland ( https://www.aicrowd.com/challenges/neurips-2020-flatland-challenge/ )

对于 RL 算法,选项似乎是:

  1. 自己编码
  2. 根据 OpenAI 健身房 API 指南创建环境并使用 OpenAI 基线算法。

我很想听听一些关于哪些环境最适合我的问题的建议和建议!

您还可以检查SUMO作为交通模拟器和多智能体强化学习的RLLib 库

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM