- 0
- 0
- 约1.84万字
- 约 31页
- 2026-01-12 发布于重庆
- 举报
(19)国家知识产权局
(12)发明专利
(10)授权公告号CN119795175B(45)授权公告日2025.07.01
(21)申请号202510113653.9
(22)申请日2025.01.24
(65)同一申请的已公布的文献号申请公布号CN119795175A
(43)申请公布日2025.04.11
(73)专利权人北京联合大学
地址100101北京市朝阳区北四环东路97
号
(72)发明人刘宏哲杨涛徐成杜煜徐冰心潘卫国代松银
(74)专利代理机构北京盛询知识产权代理有限公司11901
专利代理师黄伟城
(56)对比文件
CN119129642A,2024.12.13审查员杨晨
(51)Int.CI.
B25J9/16(2006.01)权利要求书3页说明书11页附图2页
(54)发明名称
一种基于多智能体强化学习的灵巧双手协同控制方法
(57)摘要
本发明涉及一种基于多智能体强化学习的灵巧双手协同控制方法,包括:初始化灵巧双手的神经网络和环境,并采集环境交互时的数据;基于环境交互时的数据,关节按照贪婪策略进行顺序决策动作;通过Q值分布网络去评估所述决策动作,同时计算奖励回报;基于奖励回报,引入熵正则化,使用策略梯度优化的方法,更新联合策略;基于预设条件,终止联合策略的更新,输出最优的协同控制策略。本发明适用于抓取、旋转、装配等复杂场景,具有高协作效率和环境适应
CN
CN119795175B
初始化灵巧双手网络和环境
初始化灵巧双手网络和环境
智能体观察环境并获得信息
按照关节顺序决策执行动作
收集数据与进行重要性采样
构建Q值分布网络
Q值分布网络采样估计奖励
更新策略与优化价值函数优
否满足结束条件
输出结果
CN119795175B权利要求书1/3页
2
1.一种基于多智能体强化学习的灵巧双手协同控制方法,其特征在于,包括:
初始化灵巧双手的神经网络和环境,并采集环境交互时的数据;
基于环境交互时的数据,关节按照贪婪策略进行顺序决策动作;
关节按照贪婪策略进行顺序决策动作包括:
关节按照任务需求进行决策顺序的设定:通过使用优势函数分解定理获得每个关节的优势值,根据优势值从大到小进行顺序决策;
每个关节k的动作ak由局部策略π(aIok)决定;局部策略的输入为关节的局部观测k和前序关节的动作ak-1;其中,将两只手的不同关节,设置成不同的智能体,每个智能体会有自己的策略,即为局部策略;
第一个关节a?直接根据局部观测1选择动作q=π?(q);第二个关节a?基于局部观测O?和第一个关节的动作a选择动作a?=π?(O?,a);按此逻辑依次执行,直到最后一个关节a40,得到联合动作a={q,a?,…,403;执行联合动作a,推动系统从当前状态s,转移到下一状态8+1;
通过Q值分布网络去评估所述决策动作,同时计算奖励回报;
基于所述奖励回报,引入熵正则化,使用策略梯度优化的方法,更新联合策略;
基于预设条件,终止联合策略的更新,输出最优的协同控制策略。
2.根据权利要求1所述的基于多智能体强化学习的灵巧双手协同控制方法,其特征在于,灵巧双手的神经网络和环境包括:灵巧双手的策略网络、评估网络和仿真环境;
所述策略网络包括:每个关节的策略网络,输入为环境信息和自身状态,输出为关节动
作;
所述评估网络包括:Q值分布网络,输入为环境信息、自身状态和关节动作,输出为关节动作的评估;
所述仿真环境包括:启动预先设定的仿真器和想定场景;
初始化灵巧双手的神经网络包括:通过生成正交矩阵对其权重进行初始化,即通过正交矩阵的方法为每一层网络赋值初始权重,从而为神经网络的各层提供线性无关的参数值。
3.根据权利要求2所述的基于多智能体强化学习的灵巧双手协同控制方法,其特征在于,所述灵巧双手的神经网络和环境中,还包括约束条件;所述约束条件包括:
力矩约束:每个关节施加的力矩应满足硬件能力的限制;
动作速率约束:关节的动作变化幅度在每个时间步内不得超过预设阈值,以避免高频变化导致的系统不稳定;
联合动作协调性约束:所有关节的动作组合需满足灵巧双手与物体动态交互的协调性要求。
4.根据权利要求1所述的基于多智能体强化学习的灵
您可能关注的文档
- (正式版)DB3309∕T 103-2023 《 海岛市场监督管理所建设管理规范 》.pdf
- (正式版)DB3309∕T 2003-2023 《 乡村旅游运营团队服务评价规范 》.pdf
- (正式版)DB3310 38-2017 《散货海运服务规范》.pdf
- (正式版)DB3310∕T 001-2011台州农业标准化示范标志牌 《 》.pdf
- (正式版)DB3310∕T 003-2012 《台州农业标准化示范要求》.pdf
- (正式版)DB3310∕T 004-2012 《台州农业标准化示范现场要求 》.pdf
- (正式版)DB3310∕T 005-2012 《台州农业标准化示范项目管理 》.pdf
- (正式版)DB3310∕T 006-2012 《温州蜜柑高品质生产技术规程》.pdf
- (正式版)DB3310∕T 009-2012 《渔家乐服务规范 》.pdf
- (正式版)DB3310∕T 010-2012 《货物公路运输服务规范》.pdf
- 中国国家标准 GB/Z 10062.32-2025锥齿轮承载能力计算方法 第32部分:锥齿轮和准双曲面齿轮的ISO评价体系 胶合承载能力算例.pdf
- 《GB/Z 10062.32-2025锥齿轮承载能力计算方法 第32部分:锥齿轮和准双曲面齿轮的ISO评价体系 胶合承载能力算例》.pdf
- GB/T 46881-2025数字化供应链 追溯体系通用要求.pdf
- GB/Z 10062.32-2025锥齿轮承载能力计算方法 第32部分:锥齿轮和准双曲面齿轮的ISO评价体系 胶合承载能力算例.pdf
- 中国国家标准 GB/T 46881-2025数字化供应链 追溯体系通用要求.pdf
- 4、《建筑与市政施工现场安全卫生与职业健康通用规范》孙其珩(1).pdf
- 25-26学年政治统编版必修4课件:5.2 社会历史的发展.pptx
- 25-26学年政治(部编版)选择性必修第二册课件:1.2.2 尊重知识产权.pptx
- 25-26学年政治统编版必修4课件:6.3 价值的创造和实现.pptx
- 25-26学年政治(部编版)选择性必修第二册课件:第1单元 第4课 知能双测8.pptx
原创力文档

文档评论(0)