簡體   English   中英

利用強化學習進行多智能體連續空間路徑尋找的最佳算法

[英]Best algorithm for multi agent continuous space path finding using Reinforcement learning

我正在開發一個項目,我需要在多代理方案中的連續空間中找到從1點到另一點的最佳優化路徑。 我正在尋找使用強化學習來解決這個問題的最佳算法。 我曾嘗試過“混合合作競爭環境的多智能體演員評論家”,但它似乎沒有達到10000個epesidoes的目標。 如何改進此算法,或者是否有任何其他算法可以幫助我解決這個問題。

多智能體強化學習很難掌握,並且尚未證明對一般病例有效。

問題在於,在多代理中,從每個代理的角度來看,環境變得不穩定。 這意味着代理操作無法直接映射到狀態,因為其他代理正在單獨執行操作,這會“混淆”所有代理。 這里有一個深入的多智能體研究集合: https//github.com/LantaoYu/MARL-Papers

如果你希望你追求你提到的演員評論方法,我建議你進一步研究: https ://arxiv.org/pdf/1706.02275.pdf如果你想完善Multi-Agent Actor Critic (MADDPG)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM