多障碍物复杂场景下的多智能体协同控制方法研究.pdfVIP

下载本文档

3
0
约7.87万字
约 71页
2025-10-11 发布于江西
举报

多障碍物复杂场景下的多智能体协同控制方法研究.pdf

摘要

近年来，人工智能技术的飞速发展，使深度强化学习在各领域的智能决策中展

现出了巨大潜力，如棋类博弈、自动驾驶等。在多智能体集群协同控制领域，强化

学习能够通过与环境的交互不断累积经验，自主地学习最优策略，有效驱动多智能

体之间的高效协同。然而，目前相关方法大多建模在理想环境，较少考虑复杂场景

中智能体的通信感知能力受限以及障碍物避让等实际问题，本文基于深度强化学

习研究集群任务下多智能体的协同控制问题，主要从以下几个方面开展工作：

针对多智能体的集群协同运动，提出了一种基于多智能体强化学习的分布式

协同控制方法。根据需求建立了强化学习算法所需的训练环境，分别对环境的状态

空间、行为空间和奖励函数机制进行设计。在多智能体深度确定性策略梯度算法的

基础上结合任务的特征引入经验共享机制，能够有效提升强化学习算法训练期间

的样本利用率，提高策略模型的收敛性能，实验结果表明所提算法在智能体感知受

限的自由区域下能够有效控制多智能体进行集群协同运动。

针对复杂场景中可能存在的障碍物，在训练的环境中加入障碍物作为实际干

扰因素，并设计相应的避障奖励函数。针对深度强化学习算法中容易出现的价值高

估问题，引入双Q学习的思想对策略算法进行改进，有效提升了算法在具有障碍

物环境下的收敛速度以及策略的整体性能，使算法在协同控制多智能体集群运动

时能够有效地避开障碍物，并且多智能体的内部也能有效地避免发生碰撞。

由于传统神经网络对环境信息、状态特征感知能力弱等问题，本文引入图注意

力机制的思想对算法的网络模型进行改进，使智能体能够较好地感知环境动态变

化，自适应地提取其它智能体以及障碍物的相关状态信息，有助于学到更好的协同

控制策略。并对算法训练所获得的策略模型在物理仿真平台中进行测试，相应的结

果表明该策略能成功地控制多架无人机集群，验证了在构建的数值环境下训练所

得到的策略具有较好的自适应性。

关键词：多智能体系统，深度强化学习，协同控制，图注意力机制

ABSTRACT

Inrecentyears,therapiddevelopmentofartificialintelligencetechnologyhas

enableddeepreinforcementlearningtoshowgreatpotentialinintelligentdecision-

makinginvariousfields,suchaschessgames,autonomousdriving,etc.Inthefieldof

multi-agentflockingcooperativecontrol,reinforcementlearningcancontinuously

accumulateexperiencethroughinteractionwiththeenvironment,learnoptimalstrategies

independently,andeffectivelydriveefficientcooperativeamongmulti-agentsystems.

However,mostofthecurrentrelatedmethodsaremodeledinidealenvironments,and

lessconsiderationisgiventopracticalissuessuchasthelimitedcommunication

perceptioncapabilitiesofagentsandobstacleavoidanceincomplexscenarios.Thisthesis

isresearchingthecollaborativecontrolproblemofmulti-agentflockingtaskbasedon

deepreinforcementlearning,theworkismainlycarriedoutfromthefollowingaspects:

Adistrib

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

多障碍物复杂场景下的多智能体协同控制方法研究.pdfVIP