CN119795175B 一种基于多智能体强化学习的灵巧双手协同控制方法 (北京联合大学).docxVIP

  • 0
  • 0
  • 约1.84万字
  • 约 31页
  • 2026-01-12 发布于重庆
  • 举报

CN119795175B 一种基于多智能体强化学习的灵巧双手协同控制方法 (北京联合大学).docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN119795175B(45)授权公告日2025.07.01

(21)申请号202510113653.9

(22)申请日2025.01.24

(65)同一申请的已公布的文献号申请公布号CN119795175A

(43)申请公布日2025.04.11

(73)专利权人北京联合大学

地址100101北京市朝阳区北四环东路97

(72)发明人刘宏哲杨涛徐成杜煜徐冰心潘卫国代松银

(74)专利代理机构北京盛询知识产权代理有限公司11901

专利代理师黄伟城

(56)对比文件

CN119129642A,2024.12.13审查员杨晨

(51)Int.CI.

B25J9/16(2006.01)权利要求书3页说明书11页附图2页

(54)发明名称

一种基于多智能体强化学习的灵巧双手协同控制方法

(57)摘要

本发明涉及一种基于多智能体强化学习的灵巧双手协同控制方法,包括:初始化灵巧双手的神经网络和环境,并采集环境交互时的数据;基于环境交互时的数据,关节按照贪婪策略进行顺序决策动作;通过Q值分布网络去评估所述决策动作,同时计算奖励回报;基于奖励回报,引入熵正则化,使用策略梯度优化的方法,更新联合策略;基于预设条件,终止联合策略的更新,输出最优的协同控制策略。本发明适用于抓取、旋转、装配等复杂场景,具有高协作效率和环境适应

CN

CN119795175B

初始化灵巧双手网络和环境

初始化灵巧双手网络和环境

智能体观察环境并获得信息

按照关节顺序决策执行动作

收集数据与进行重要性采样

构建Q值分布网络

Q值分布网络采样估计奖励

更新策略与优化价值函数优

否满足结束条件

输出结果

CN119795175B权利要求书1/3页

2

1.一种基于多智能体强化学习的灵巧双手协同控制方法,其特征在于,包括:

初始化灵巧双手的神经网络和环境,并采集环境交互时的数据;

基于环境交互时的数据,关节按照贪婪策略进行顺序决策动作;

关节按照贪婪策略进行顺序决策动作包括:

关节按照任务需求进行决策顺序的设定:通过使用优势函数分解定理获得每个关节的优势值,根据优势值从大到小进行顺序决策;

每个关节k的动作ak由局部策略π(aIok)决定;局部策略的输入为关节的局部观测k和前序关节的动作ak-1;其中,将两只手的不同关节,设置成不同的智能体,每个智能体会有自己的策略,即为局部策略;

第一个关节a?直接根据局部观测1选择动作q=π?(q);第二个关节a?基于局部观测O?和第一个关节的动作a选择动作a?=π?(O?,a);按此逻辑依次执行,直到最后一个关节a40,得到联合动作a={q,a?,…,403;执行联合动作a,推动系统从当前状态s,转移到下一状态8+1;

通过Q值分布网络去评估所述决策动作,同时计算奖励回报;

基于所述奖励回报,引入熵正则化,使用策略梯度优化的方法,更新联合策略;

基于预设条件,终止联合策略的更新,输出最优的协同控制策略。

2.根据权利要求1所述的基于多智能体强化学习的灵巧双手协同控制方法,其特征在于,灵巧双手的神经网络和环境包括:灵巧双手的策略网络、评估网络和仿真环境;

所述策略网络包括:每个关节的策略网络,输入为环境信息和自身状态,输出为关节动

作;

所述评估网络包括:Q值分布网络,输入为环境信息、自身状态和关节动作,输出为关节动作的评估;

所述仿真环境包括:启动预先设定的仿真器和想定场景;

初始化灵巧双手的神经网络包括:通过生成正交矩阵对其权重进行初始化,即通过正交矩阵的方法为每一层网络赋值初始权重,从而为神经网络的各层提供线性无关的参数值。

3.根据权利要求2所述的基于多智能体强化学习的灵巧双手协同控制方法,其特征在于,所述灵巧双手的神经网络和环境中,还包括约束条件;所述约束条件包括:

力矩约束:每个关节施加的力矩应满足硬件能力的限制;

动作速率约束:关节的动作变化幅度在每个时间步内不得超过预设阈值,以避免高频变化导致的系统不稳定;

联合动作协调性约束:所有关节的动作组合需满足灵巧双手与物体动态交互的协调性要求。

4.根据权利要求1所述的基于多智能体强化学习的灵

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档