动态环境下分布式异构多机器人避障方法研究.docxVIP

下载本文档

5
0
约1.1万字
约 31页
2023-08-12 发布于浙江
举报

动态环境下分布式异构多机器人避障方法研究.docx

? ? 动态环境下分布式异构多机器人避障方法研究 ? ? 欧阳勇平，魏长赟，蔡帛良,2 （1.河海大学机电工程学院，江苏常州 213022;2.英国卡迪夫大学工学院，威尔士卡迪夫 CF10 3A）随着多机器人系统(multi-robot system，MRS)的广泛应用，其路径规划和导航避障领域一直是学者们关注的热点话题。传统的机器人避障算法主要有粒子群寻优算法[1]、基于障碍物的几何构型得到避障策略[2]、Khatib[3]提出了最优避碰策略(optimal reciprocal collision avoidance,ORCA)及其衍生的其他避障算法等，但这些导航模型在环境复杂的情况下调整效果不佳，不适用于动态环境。近年来，在基于强化学习的多机器人导航避障算法中，相关学者们提出了构建状态空间到动作空间的映射的控制逻辑，也即策略映射[4-8]，其中Zhang 等[4]提出了一种以深度确定性策略梯度(deep deterministic policy gradient,DDPG)为基础的机器人控制模型，最终构建了基于激光雷达和位置信息的策略映射，但算法的收敛速度慢，训练效率较低。Chen[5]则提出了一种异步DDPG 算法(asynchronous DDPG,ADDPG)，使用多个机器人在同一个实验环境中进行实验，提高了经验的搜集效率，缩短了算法的训练时间，但没有考虑移动机器人的导航避障规则。因此设计一种受客观条件限制较低，且可以实现人机协同的机器人避障算法对于提高异构多机器人的工作效率和安全性具有重要意义。故本文在此提出了基于深度强化学习的多特征策略梯度优化算法，并引入人机协同环境下的社会范式以及提出经验优先采样机制，不仅使多机器人移动按照一定规则避障，而且提高了算法的训练速度以及控制精度，同时搭建了分布式多机器人的控制模型，在Gazebo 仿真环境下进行算法的训练学习，最后在现实环境下的多异构机器人平台上验证了导航避障方法的可行性。 1 问题描述多机器人路径规划是在工作环境中为各个机器人都找到一条从起始点到目标点的最优无碰撞路径。其中，单个机器人前往目标点不仅需要考虑与环境内的障碍物避免碰撞，还需避免在移动时与其他机器人发生碰撞。因此，如何为环境内的各个机器人在寻找路径时不发生碰撞是存在的难题。本文以深度强化学习模型为基础，为解决异构多机器人在动态环境下导航避障问题，搭建了不依赖精确地图机器人导航避障模型，机器人仅装有激光雷达传感器，只需对原始的测量信号进行获取和处理，即可实现异构多机器人的导航避障。具体模型如图1 所示。图1 机器人导航避障模型Fig.1 Robot navigation and collision avoidance model 在图中机器人所获得的状态信息为目标点相对自身的极坐标位置 (ρ,θ)（图中黄色箭头），激光传感器所捕获的周围环境信息 ?=[l1,l2,···,l128]（红色线）且每条激光编号从0 开始沿图中绿色箭头方向递增。其中，极坐标位置信息 (ρ,θ)的计算公式为式中：(xt,yt) 和 (xw,yw)分别是机器人和目标点在全局坐标系下的坐标，vt和vw分别是机器人的速度矢量和从机器人指向目标点的矢量。最终上述两部分信息经过归一化处理后连同上一时刻的机器人动作信息at?1被组成一个状态信息st，并传递给强化学习算法进行计算，其中归一化公式为式中：ξ是环境中的最大对角线长度，最大感知距离lmax=3 m。基于上述提出的不依赖精确地图导航的异构多机器人导航避障模型，本文将在后续仿真与真实实验中进一步介绍。 2 深度强化学习控制模型 2.1 马尔可夫决策过程为各个机器人寻找一条最优无碰撞路径问题可以简化为马尔可夫决策过程。马尔可夫决策过程(Markov decision process，MDP)作为强化学习理论的基础，具有重要的理论价值。MDP 的数学要素可以表述为五元组，即 (S,A,P,R,γ)，其中： S表示状态空间，表示MDP 所在环境下所有可能状态的集合； A表示动作空间，表示对应状态下所有可采取的动作的集合； P表示状态的条件转移概率，表示代理在时刻st状态下采取动作a后，在t+1时刻的状态st+1的状态为s′的概率，其公式表述为 R为 MDP 的评价函数，是算法在s状态下执行动作a后变换为s′的过程对算法目标结果好坏的量化评价标准，其定义为 γ是折扣因子，表示MDP 中每一个决策环节对相对于决策过程中未来的决策环节的重要性，γ ≤1恒成立，表示算法更看重当前奖励而不是未来的奖励。 MDP 的实际流程可以表示为图2，环境中受算法控制的代理对象在状态s0∈S的条件下初始化，并由算法根据状态s0选择建议动作a0∈S并由代理对象完成该动作，环境根据

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

动态环境下分布式异构多机器人避障方法研究.docxVIP