- 0
- 0
- 约7.22千字
- 约 14页
- 2026-01-20 发布于重庆
- 举报
(19)国家知识产权局
(12)发明专利
(10)授权公告号CN114169421B(45)授权公告日2025.07.11
(21)申请号202111455606.0
(22)申请日2021.12.01
(65)同一申请的已公布的文献号申请公布号CN114169421A
(43)申请公布日2022.03.11
(73)专利权人天津大学
地址300072天津市南开区卫津路92号
(72)发明人郝建业郑岩谢京达马亿杨天培
(74)专利代理机构天津市北洋有限责任专利代理事务所12201
专利代理师李素兰
(51)Int.CI.
GO6N3/006(2023.01)
GO6N3/045(2023.01)
GO6N3/092(2023.01)
GO6F18/20(2023.01)
(56)对比文件
CNCN110794842113341958
CNCN
110794842
113341958
审查员李诗璐
权利要求书2页说明书4页附图2页
(54)发明名称
基于内在动机的多智能体稀疏奖励环境协作探索方法
(57)摘要
CN114169421B本发明公开了一种基于内在动机的多智能体稀疏奖励环境协作探索方法,步骤1、初始化目标策略和探索策略;步骤2、构建人工势场函数,通过在环境中构建一个人工势场,引导探索策略在环境中根据人工势场中的势能进行探索,对于未探索充分区域加强探索,从而得到成功的经验,引导目标策略进行学习;步骤3、进行势能影响的分配;步骤4、利用人工势场影响更新探索策略,即利用经过信度分配的人工势场强度影响引导探索策略进行探索,加快对环境空间的探索,利用成功经验信号引导目标策略学习。与现有技术相比,本发明对稀疏奖励环境下智能体的探索效率有较高的提升,可以与多种强化学习算法进
CN114169421B
初始化目标策略和
初始化目标策略和探索策略
利用Count-based方法计算联合状态-动
作访问次数,从数据池中随机抽取一批数
据,将访问次数最少的联合状态-动作
作为目标,设置人工势场
利用反事实基线计算势场对各智能体的影响
利用计算出的影响更新探索策略,存储经验更新目标策略
2
3
4
CN114169421B权利要求书1/2页
2
1.一种基于内在动机的多智能体稀疏奖励环境协作机器人路径探索方法,其特征在于,该方法具体包括以下步骤:
步骤1、初始化目标策略π={;“二,该策略用于学习完成目标任务;同时初始化探索策略μ={H;j“二,该策略用于在环境中进行充分探索;其中,n为智能体数量;
步骤2、构建机器人路径规划人工势场函数,通过在环境中构建一个人工势场,引导探索策略在环境中根据人工势场中的势能进行探索,对于未探索充分区域加强探索,从而得到成功的经验,引导目标策略进行学习;具体的,得到构型空间为一个有起伏地形的区域,其中,起点和障碍物点位于高的区域,终点位于低的区域,机器人视作一个球体,那么机器人会在重力的作用下沿着某条轨迹从高的起点滑落到低的终点并避开障碍物;所述步骤2进一步包括以下处理:
步骤2.1、进行探索充分性度量,具体处理如下:
将协作式多智能体探索任务建模为分布式局部观测的马尔可夫决策过程(Dec-POMDP),如下式所示:
S,U,P,r,0,Z,n,γ
其中,S表示智能体的全局状态集合,U表示智能体的联合动作集合,P表示转移函数,r为全局奖励函数,0表示智能体的局部观测集合,Z表示初始全局状态分布,n表示智能体数量,γ表示强化学习中的奖赏折扣因子;
用计数器CounterC(S,u.)表示在整个训练过程中多智能体系统在联合状态为S下采取联合动作为u的次数;
步骤2.2、距离测算网络训练
在多智能体环境中,通过一个距离测算网络来衡量两个状态之间的距离,距离测算网络输入为全局状态S和联合动作u,输出为一个值,用于衡量两个状态之间的距离;距离测算公式如下:
dis=||f(st+1,ut+1)-f(s,u.)II2其中,f()表示拟合函数,dis表示两个状态之间的距
离;
步骤2.3、构建人工势场,具体处理如下:
从数据池中采样一批数据,将Counter最少的状态-动作对作为目标状态(s,u)goa?,采样分段引力势能,引力势能如下式所示:
其中,d((s,u)
您可能关注的文档
- CN113870355B 一种相机的平场标定方法、装置及平场标定系统 (卡莱特云科技股份有限公司).docx
- CN113906804B 用户终端以及无线通信方法 (株式会社Ntt都科摩).docx
- CN113920511B 车牌识别方法、模型训练方法、电子设备及可读存储介质 (深圳市景阳科技股份有限公司).docx
- CN113925068B 一种翻转脱模方法 (广州浩胜食品机械有限公司).docx
- CN113950724B 在癫痫患者的脑中标识可通过手术操作的目标区的方法 (艾克斯-马赛大学).docx
- CN113950747B 显示基板及其制备方法、显示装置 (京东方科技集团股份有限公司).docx
- CN113961298B 一种页面切换方法、装置、设备及介质 (中国建设银行股份有限公司).docx
- CN113965306B 从多个处于休眠模式的小区传输参考信号的方法及其装置 (诺基亚技术有限公司).docx
- CN113988289B 基于对抗训练鲁棒的内容-风格解耦模型训练方法及系统 (上海交通大学).docx
- CN114004225B 一种医学文本词向量化方法 (山东健康医疗大数据有限公司).docx
- 浙江省宁波市2024-2025学年高三下学期高考模拟考试数学试卷(解析版).pdf
- 广东省汕头市潮阳一中明光学校2024-2025学年高二上学期期中考试政治试题(解析版).pdf
- 广东省汕头市潮阳一中明光学校2024-2025学年高三上学期第三阶段考试历史试题(解析版).pdf
- 广东省汕头市澄海区2024-2025学年八年级上学期期末考试英语试题(解析版).pdf
- 浙江省衢州、丽水、湖州三地市2025届高三下学期4月教学质量检测(二模)数学试题(解析版).pdf
- 浙江省绍兴市上虞区2025届高三下学期5月高考及选考适应性考试数学试卷(解析版).pdf
- 广东省汕尾市2023-2024学年三年级上学期英语期末试卷(解析版).docx
- 广东省汕头市澄海区2024-2025学年高二上学期1月期末地理试题(解析版).pdf
- 广东省汕头市澄海区2024-2025学年八年级上学期期末语文试题(解析版).pdf
- 湖北省恩施土家族苗族自治州来凤县2023-2024学年三年级上学期英语期末试卷(解析版).docx
原创力文档

文档评论(0)