多智能体协同强化学习的编队避障方法研究.pdfVIP

下载本文档

5
0
约11.1万字
约 79页
2025-10-03 发布于江西
举报

多智能体协同强化学习的编队避障方法研究.pdf

摘要

在实际的运用场景中，编队控制避障是多智能体系统解决问题的基本能力之

一。尽管传统的控制方法如模型预测控制（MPC）、模糊控制等方法取得了一些成

果，但是这些方法都有局限性，如需要全局状态的精确信息，而这些信息在通信

状态受限的环境中很难获取。随着人工智能的发展，结合了神经网络的深度强化

学习能在智能体不了解环境状态和动力学模型的条件下，自适应的进行编队学习，

形成有效的控制策略。因此本文对基于多智能体强化学习的编队避障控制方法进

行研究，探究不同条件和算法下智能体编队避障的有效性和稳定性。研究内容如

下：

针对传统编队控制任务中难以获得精确环境模型和智能体动力学模型的问题，

采用了基于多智能体强化学习的虚拟领航—跟随者多智能体近端策略优化(Multi

AgentProximalPolicyOptimization,MAPPO)编队控制避障算法。首先基于多智能

体强化学习算法框架建立编队状态下的多智能体马尔可夫模型，同时根据任务需

要设计智能体的观测状态、动作表示和合理的奖励函数。然后仿真环境中，分别

验证了在无障碍条件下智能体的编队导航效果，障碍条件下的编队避障效果，以

及不同规模编队的避障效果，并添加了时间序列处理单元用于缓解智能体的局部

观测问题。

针对MAPPO算法在编队避障任务中智能体学习策略单一，无法保证群体策

略提升和收敛速度慢的问题,采用了基于顺序更新的HAPPO(Heterogeneous-Agent

ProximalPolicyOptimisation)编队控制算法。HAPPO算法让每个智能体能顺序更

新智能体的优势函数，保证更新的单调性。HAPPO算法为每个智能体都设置了独

立的策略网络，能够有效的运用于不同动力学模型的智能体编队。为了验证算法

的有效性，首先采用了HAPPO算法在无障碍环境下进行了验证，然后在障碍环境

中与MAPPO算法的实际表现进行了对比，并分析了不同规模下的编队避障性能。

最后针对异质的智能体编队，本文采用HAPPO算法实现了编队的避障导航，并与

MAPPO算法进行对比,验证了HAPPO算法在异质编队避障任务上的有效性。

本文在无环境模型和动力学模型条件下，通过对多智能强化学习编队避障方

法的研究和探索实现了基于多智能体强化学习的协同自主编队避障，并在多智能

体小车环境(MultiagentVehicleEnvironment,MVE)中验证了算法的有效性。

关键词：多智能体系统，编队避障，强化学习，分布式策略，顺序更新

ABSTRACT

Inreal-worldscenarios,formationcontrolforobstacleavoidanceisoneofthebasic

problem-solvingcapabilitiesofmulti-agentsystems.Althoughtraditionalcontrolmeth-

odssuchasmodelpredictivecontrol(MPC)andfuzzycontrolhaveachievedsomeresults,

theyhavelimitations,suchastheneedforaccurateinformationabouttheglobalstate,

whichisdifficulttoobtaininenvironmentswithlimitedcommunicationstates.Withthe

developmentofartificialintelligence,thecombinationofneuralnetworkdeepreinforce-

mentlearningcancarryoutformationlearningandformeffectivecontrolstrategiesunder

theconditionthattheagentsdonotknowtheenvironmentsta

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

多智能体协同强化学习的编队避障方法研究.pdfVIP