多障碍物复杂场景下的多智能体协同控制方法研究.pdfVIP

  • 3
  • 0
  • 约7.87万字
  • 约 71页
  • 2025-10-11 发布于江西
  • 举报

多障碍物复杂场景下的多智能体协同控制方法研究.pdf

摘要

近年来,人工智能技术的飞速发展,使深度强化学习在各领域的智能决策中展

现出了巨大潜力,如棋类博弈、自动驾驶等。在多智能体集群协同控制领域,强化

学习能够通过与环境的交互不断累积经验,自主地学习最优策略,有效驱动多智能

体之间的高效协同。然而,目前相关方法大多建模在理想环境,较少考虑复杂场景

中智能体的通信感知能力受限以及障碍物避让等实际问题,本文基于深度强化学

习研究集群任务下多智能体的协同控制问题,主要从以下几个方面开展工作:

针对多智能体的集群协同运动,提出了一种基于多智能体强化学习的分布式

协同控制方法。根据需求建立了强化学习算法所需的训练环境,分别对环境的状态

空间、行为空间和奖励函数机制进行设计。在多智能体深度确定性策略梯度算法的

基础上结合任务的特征引入经验共享机制,能够有效提升强化学习算法训练期间

的样本利用率,提高策略模型的收敛性能,实验结果表明所提算法在智能体感知受

限的自由区域下能够有效控制多智能体进行集群协同运动。

针对复杂场景中可能存在的障碍物,在训练的环境中加入障碍物作为实际干

扰因素,并设计相应的避障奖励函数。针对深度强化学习算法中容易出现的价值高

估问题,引入双Q学习的思想对策略算法进行改进,有效提升了算法在具有障碍

物环境下的收敛速度以及策略的整体性能,使算法在协同控制多智能体集群运动

时能够有效地避开障碍物,并且多智能体的内部也能有效地避免发生碰撞。

由于传统神经网络对环境信息、状态特征感知能力弱等问题,本文引入图注意

力机制的思想对算法的网络模型进行改进,使智能体能够较好地感知环境动态变

化,自适应地提取其它智能体以及障碍物的相关状态信息,有助于学到更好的协同

控制策略。并对算法训练所获得的策略模型在物理仿真平台中进行测试,相应的结

果表明该策略能成功地控制多架无人机集群,验证了在构建的数值环境下训练所

得到的策略具有较好的自适应性。

关键词:多智能体系统,深度强化学习,协同控制,图注意力机制

ABSTRACT

Inrecentyears,therapiddevelopmentofartificialintelligencetechnologyhas

enableddeepreinforcementlearningtoshowgreatpotentialinintelligentdecision-

makinginvariousfields,suchaschessgames,autonomousdriving,etc.Inthefieldof

multi-agentflockingcooperativecontrol,reinforcementlearningcancontinuously

accumulateexperiencethroughinteractionwiththeenvironment,learnoptimalstrategies

independently,andeffectivelydriveefficientcooperativeamongmulti-agentsystems.

However,mostofthecurrentrelatedmethodsaremodeledinidealenvironments,and

lessconsiderationisgiventopracticalissuessuchasthelimitedcommunication

perceptioncapabilitiesofagentsandobstacleavoidanceincomplexscenarios.Thisthesis

isresearchingthecollaborativecontrolproblemofmulti-agentflockingtaskbasedon

deepreinforcementlearning,theworkismainlycarriedoutfromthefollowingaspects:

Adistrib

文档评论(0)

1亿VIP精品文档

相关文档