CN114169421B 基于内在动机的多智能体稀疏奖励环境协作探索方法（天津大学）.docxVIP

下载本文档

0
0
约7.22千字
约 14页
2026-01-20 发布于重庆
举报

CN114169421B 基于内在动机的多智能体稀疏奖励环境协作探索方法（天津大学）.docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN114169421B(45)授权公告日2025.07.11

(21)申请号202111455606.0

(22)申请日2021.12.01

(65)同一申请的已公布的文献号申请公布号CN114169421A

(43)申请公布日2022.03.11

(73)专利权人天津大学

地址300072天津市南开区卫津路92号

(72)发明人郝建业郑岩谢京达马亿杨天培

(74)专利代理机构天津市北洋有限责任专利代理事务所12201

专利代理师李素兰

(51)Int.CI.

GO6N3/006(2023.01)

GO6N3/045(2023.01)

GO6N3/092(2023.01)

GO6F18/20(2023.01)

(56)对比文件

CNCN110794842113341958

CNCN

110794842

113341958

审查员李诗璐

权利要求书2页说明书4页附图2页

(54)发明名称

基于内在动机的多智能体稀疏奖励环境协作探索方法

(57)摘要

CN114169421B本发明公开了一种基于内在动机的多智能体稀疏奖励环境协作探索方法，步骤1、初始化目标策略和探索策略；步骤2、构建人工势场函数，通过在环境中构建一个人工势场，引导探索策略在环境中根据人工势场中的势能进行探索，对于未探索充分区域加强探索，从而得到成功的经验，引导目标策略进行学习；步骤3、进行势能影响的分配；步骤4、利用人工势场影响更新探索策略，即利用经过信度分配的人工势场强度影响引导探索策略进行探索，加快对环境空间的探索，利用成功经验信号引导目标策略学习。与现有技术相比，本发明对稀疏奖励环境下智能体的探索效率有较高的提升，可以与多种强化学习算法进

CN114169421B

初始化目标策略和

初始化目标策略和探索策略

利用Count-based方法计算联合状态-动

作访问次数，从数据池中随机抽取一批数

据，将访问次数最少的联合状态-动作

作为目标，设置人工势场

利用反事实基线计算势场对各智能体的影响

利用计算出的影响更新探索策略，存储经验更新目标策略

CN114169421B权利要求书1/2页

1.一种基于内在动机的多智能体稀疏奖励环境协作机器人路径探索方法，其特征在于，该方法具体包括以下步骤：

步骤1、初始化目标策略π={;“二，该策略用于学习完成目标任务；同时初始化探索策略μ={H;j“二，该策略用于在环境中进行充分探索；其中，n为智能体数量；

步骤2、构建机器人路径规划人工势场函数，通过在环境中构建一个人工势场，引导探索策略在环境中根据人工势场中的势能进行探索，对于未探索充分区域加强探索，从而得到成功的经验，引导目标策略进行学习；具体的，得到构型空间为一个有起伏地形的区域，其中，起点和障碍物点位于高的区域，终点位于低的区域，机器人视作一个球体，那么机器人会在重力的作用下沿着某条轨迹从高的起点滑落到低的终点并避开障碍物；所述步骤2进一步包括以下处理：

步骤2.1、进行探索充分性度量，具体处理如下：

将协作式多智能体探索任务建模为分布式局部观测的马尔可夫决策过程(Dec-POMDP),如下式所示：

S,U,P,r,0,Z,n,γ

其中，S表示智能体的全局状态集合，U表示智能体的联合动作集合，P表示转移函数，r为全局奖励函数，0表示智能体的局部观测集合，Z表示初始全局状态分布，n表示智能体数量，γ表示强化学习中的奖赏折扣因子；

用计数器CounterC(S,u.)表示在整个训练过程中多智能体系统在联合状态为S下采取联合动作为u的次数；

步骤2.2、距离测算网络训练

在多智能体环境中，通过一个距离测算网络来衡量两个状态之间的距离，距离测算网络输入为全局状态S和联合动作u,输出为一个值，用于衡量两个状态之间的距离；距离测算公式如下：

dis=||f(st+1,ut+1)-f(s,u.)II2其中，f()表示拟合函数，dis表示两个状态之间的距

离；

步骤2.3、构建人工势场，具体处理如下：

从数据池中采样一批数据，将Counter最少的状态-动作对作为目标状态(s,u)goa?,采样分段引力势能，引力势能如下式所示：

CN114169421B 基于内在动机的多智能体稀疏奖励环境协作探索方法（天津大学）.docxVIP