CN114942633B 基于数字孪生和强化学习的多智能体协同避碰采摘方法（华南农业大学）.docxVIP

下载本文档

0
0
约1.54万字
约 28页
2026-01-23 发布于重庆
举报

CN114942633B 基于数字孪生和强化学习的多智能体协同避碰采摘方法（华南农业大学）.docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN114942633B(45)授权公告日2025.01.10

(21)申请号202210457714.X

(22)申请日2022.04.28

(65)同一申请的已公布的文献号申请公布号CN114942633A

(43)申请公布日2022.08.26

(73)专利权人华南农业大学

地址510642广东省广州市天河区五山路

483号

GO6N3/04(2023.01)

GO6N3/092(2023.01)

GO6N3/006(2023.01)

(56)对比文件

CN104067781A,2014.10.01CN110139552A,2019.08.16审查员黄莉

(72)发明人王红军林俊强邹湘军张坡李承恩邹伟锐

(74)专利代理机构广州市华学知识产权代理有限公司44245

专利代理师唐善新

(51)Int.CI.

G05D1/43(2024.01)权利要求书3页说明书8页附图6页

(54)发明名称

基于数字孪生和强化学习的多智能体协同避碰采摘方法

(57)摘要

CN114942633B本发明公开了一种基于数字孪生和深度强化学习的多智能体协同避碰采摘方法，包括建立数字果园数据库，构建孪生果园场景；基于马尔可夫决策过程框架对虚拟机器人自主避碰采摘策略问题进行环境建模并搭建仿真系统，设定状态空间和动作空间；基于人工势场法设计奖励函数，结合多智能体分布式近端策略优化算法建立APF-MADPPO学习模型；建立APF-MADPPO网络模型及训练流程，设置训练方法；基于迁移学习、推理学习，规划出最优采摘路径，通过控制指令驱动真实机器人在错综复杂的环境下完成自动避碰采摘任务。本发明可以实现在实时变化环境下，多智能体能够协同作业且自主避碰，进而完成自动采摘任

CN114942633B

搭建孪生果园环境

建立学习环境模型

搭建学习仿真系统

:APF-MADPPO学习模型

设计训练方法

保存训练结果

模型验证推理学习

动作空间

奖励函数

状态空间

CN114942633B权利要求书1/3页

1.一种基于数字孪生和深度强化学习的多智能体协同避碰采摘方法，其特征在于包括下述步骤：

(1)数据采集系统实时采集真实果园环境信息并传输到云服务器，结合数据分析与挖掘技术和农艺知识建立数字果园数据库；

(2)建立云服务器与虚拟仿真平台之间的数据通信，利用云服务器的实时数据驱动虚拟仿真平台中的三维模型进行智能仿真调度，构建孪生果园场景；建立虚拟采摘机器人模型；

(3)基于马尔可夫决策过程框架对虚拟机器人自主避碰采摘策略问题进行环境建模并搭建仿真系统，设定状态空间和动作空间；

(4)基于人工势场法设计奖励函数，结合多智能体分布式近端策略优化算法建立APF-MADPPO学习模型；所述奖励函数包括采摘点引导函数、障碍物碰撞惩罚函数、机器人之间的碰撞惩罚函数以及时间惩罚函数；

所述APF-MADPPO学习模型，包括状态空间、动作空间和奖励函数设计；所述状态空间包括机器人末端执行器空间位置Pend、采摘点空间位置Pgoal、障碍物空间位置Pobs、机器人末端执行器与采摘点的相对位置、机器人各个转动轴的中心点与障碍物的相对位置PRo、机器人末端执行器与采摘点的距离Dgoa、机器人各个转动轴的中心点与障碍物的距离DRo,机器人之间各个转动轴的距离其中i表示为智能体即采摘机器人个数；所述动作空间包括各个机器人各个关节轴的转动角度的变化；

所述奖励函数包括：采摘点引导函数Rguide、障碍物避碰函数Robs、机器人之间的碰撞惩罚函数Rarm以及时间惩罚函数Rtime;系统累积奖励值R计算方法如下式所示：

R=Rguide+Robs+Rarm+Rtime

其中，采摘点引导函数Rguide的计算方法是计算各个机械臂末端执行器

与

目标采摘点位置Pgoal=(x?,yo,

Z?)之间的距

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

CN114942633B 基于数字孪生和强化学习的多智能体协同避碰采摘方法（华南农业大学）.docxVIP