CN119795175B 一种基于多智能体强化学习的灵巧双手协同控制方法（北京联合大学）.docxVIP

下载本文档

0
0
约1.84万字
约 31页
2026-01-12 发布于重庆
举报

CN119795175B 一种基于多智能体强化学习的灵巧双手协同控制方法（北京联合大学）.docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN119795175B(45)授权公告日2025.07.01

(21)申请号202510113653.9

(22)申请日2025.01.24

(65)同一申请的已公布的文献号申请公布号CN119795175A

(43)申请公布日2025.04.11

(73)专利权人北京联合大学

地址100101北京市朝阳区北四环东路97

号

(72)发明人刘宏哲杨涛徐成杜煜徐冰心潘卫国代松银

(74)专利代理机构北京盛询知识产权代理有限公司11901

专利代理师黄伟城

(56)对比文件

CN119129642A,2024.12.13审查员杨晨

(51)Int.CI.

B25J9/16(2006.01)权利要求书3页说明书11页附图2页

(54)发明名称

一种基于多智能体强化学习的灵巧双手协同控制方法

(57)摘要

本发明涉及一种基于多智能体强化学习的灵巧双手协同控制方法，包括：初始化灵巧双手的神经网络和环境，并采集环境交互时的数据；基于环境交互时的数据，关节按照贪婪策略进行顺序决策动作；通过Q值分布网络去评估所述决策动作，同时计算奖励回报；基于奖励回报，引入熵正则化，使用策略梯度优化的方法，更新联合策略；基于预设条件，终止联合策略的更新，输出最优的协同控制策略。本发明适用于抓取、旋转、装配等复杂场景，具有高协作效率和环境适应

CN119795175B

初始化灵巧双手网络和环境

智能体观察环境并获得信息

按照关节顺序决策执行动作

收集数据与进行重要性采样

构建Q值分布网络

Q值分布网络采样估计奖励

更新策略与优化价值函数优

否满足结束条件

输出结果

CN119795175B权利要求书1/3页

1.一种基于多智能体强化学习的灵巧双手协同控制方法，其特征在于，包括：

初始化灵巧双手的神经网络和环境，并采集环境交互时的数据；

基于环境交互时的数据，关节按照贪婪策略进行顺序决策动作；

关节按照贪婪策略进行顺序决策动作包括：

关节按照任务需求进行决策顺序的设定：通过使用优势函数分解定理获得每个关节的优势值，根据优势值从大到小进行顺序决策；

每个关节k的动作ak由局部策略π(aIok)决定；局部策略的输入为关节的局部观测k和前序关节的动作ak-1;其中，将两只手的不同关节，设置成不同的智能体，每个智能体会有自己的策略，即为局部策略；

第一个关节a?直接根据局部观测1选择动作q=π?(q);第二个关节a?基于局部观测O?和第一个关节的动作a选择动作a?=π?(O?,a);按此逻辑依次执行，直到最后一个关节a40,得到联合动作a={q,a?,…,403;执行联合动作a,推动系统从当前状态s,转移到下一状态8+1;

通过Q值分布网络去评估所述决策动作，同时计算奖励回报；

基于所述奖励回报，引入熵正则化，使用策略梯度优化的方法，更新联合策略；

基于预设条件，终止联合策略的更新，输出最优的协同控制策略。

2.根据权利要求1所述的基于多智能体强化学习的灵巧双手协同控制方法，其特征在于，灵巧双手的神经网络和环境包括：灵巧双手的策略网络、评估网络和仿真环境；

所述策略网络包括：每个关节的策略网络，输入为环境信息和自身状态，输出为关节动

作；

所述评估网络包括：Q值分布网络，输入为环境信息、自身状态和关节动作，输出为关节动作的评估；

所述仿真环境包括：启动预先设定的仿真器和想定场景；

初始化灵巧双手的神经网络包括：通过生成正交矩阵对其权重进行初始化，即通过正交矩阵的方法为每一层网络赋值初始权重，从而为神经网络的各层提供线性无关的参数值。

3.根据权利要求2所述的基于多智能体强化学习的灵巧双手协同控制方法，其特征在于，所述灵巧双手的神经网络和环境中，还包括约束条件；所述约束条件包括：

力矩约束：每个关节施加的力矩应满足硬件能力的限制；

动作速率约束：关节的动作变化幅度在每个时间步内不得超过预设阈值，以避免高频变化导致的系统不稳定；

联合动作协调性约束：所有关节的动作组合需满足灵巧双手与物体动态交互的协调性要求。

CN119795175B 一种基于多智能体强化学习的灵巧双手协同控制方法（北京联合大学）.docxVIP