基于深度强化学习的多AUV协同围捕问题研究.pdf

基于深度强化学习的多AUV协同围捕问题研究.pdf

基于深度强化学习的多AUV协同围捕问题研究

摘要

多AUV协同围捕问题是一种合作与博弈共存的问题,多个AUV通过相互协作搜

索目标,最后形成包围圈,以实现对被围捕目标的包围控制,被围捕目标则通过速度

优势摆脱AUV的包围控制。在协同围捕的整个过程中涉及到避障、路径规划、协同控

制等问题,目前的研究大多从控制理论出发,需要根据AUV面对的不同情况设计不同

的复杂控制算法,具有一定的局限性。因此,本文使用深度强化学习算法控制AUV运

动与环境进行交互,通过探索试错的方式不断更新自身策略,自主学习如何对目标实

施围捕的最优策略。

本文首先对多AUV协同围捕问题进行了马尔可夫决策过程建模,使用两种不同架

构的深度强化学习算法控制AUV与仿真环境交互自主学习最优围捕策略。通过对仿真

实验结果进行分析,发现在环境信息未知的情况下,多AUV协同围捕存在稀疏奖励问

题,导致AUV难以搜索到被围捕目标;在搜索到被围捕目标的情况下,还会出现信用

分配问题,导致出现懒惰AUV;AUV在训练过程中会重复学习彼此学习过的策略,使

算法收敛速度变慢。

针对稀疏奖励问题和信用分配问题,本文提出一种基于人工势场的内在

文档评论(0)

1亿VIP精品文档

相关文档