![](/img/trans.png)
[英]How can I get an integer as output for continuous action space PPO reinforcement learning?
[英]Best algorithm for multi agent continuous space path finding using Reinforcement learning
我正在開發一個項目,我需要在多代理方案中的連續空間中找到從1點到另一點的最佳優化路徑。 我正在尋找使用強化學習來解決這個問題的最佳算法。 我曾嘗試過“混合合作競爭環境的多智能體演員評論家”,但它似乎沒有達到10000個epesidoes的目標。 如何改進此算法,或者是否有任何其他算法可以幫助我解決這個問題。
多智能體強化學習很難掌握,並且尚未證明對一般病例有效。
問題在於,在多代理中,從每個代理的角度來看,環境變得不穩定。 這意味着代理操作無法直接映射到狀態,因為其他代理正在單獨執行操作,這會“混淆”所有代理。 這里有一個深入的多智能體研究集合: https : //github.com/LantaoYu/MARL-Papers
如果你希望你追求你提到的演員評論方法,我建議你進一步研究: https ://arxiv.org/pdf/1706.02275.pdf如果你想完善Multi-Agent Actor Critic (MADDPG)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.